dj_wings空杯-优快云博客

原创 hive 时间运算

date_add(from_unixtime(unix_timestamp(batch_date,'yyyymmdd'),"yyyy-mm-dd"),1)date_add格式要求为2020-10-01才能加减

2020-11-11 10:37:50 564

原创 pyspark 模型训练列名问题

模型训练时，如果变量是从hive中直接拿取，则通用但是当变量是现场加工时，变量的大小写可能和它默认的列名大小写不同，可能会报错

2020-09-13 18:14:27 296

原创 Python DataFrame 去除指定内容

tab=tab.loc[~tab.val_name.isin(ignore)]val_name 列名ignore去除的指定内容为list

2020-09-05 18:13:25 2017

原创 python dataframe选取指定的列

简单操作：df[["col1","col2"]]

2020-08-08 14:36:19 8630

转载 pySpark dataframe列中获取最大值的最佳方法

2020-07-30 11:05:08 8172

原创 pyspark 众数填充空值

转自：https://medium.com/@aieeshashafique/exploratory-data-analysis-using-pyspark-dataframe-in-python-bd55c02a2852def mode_of_pyspark_columns(df, cat_col_list, verbose=False): col_with_mode=[] for col in cat_col_list: #Filter null ...

2020-07-29 17:35:10 1486

原创 pyspark 获取表的列名和列的结构组合的列表

mian_table.types第三个的列名：mian_table.types[2][0]第三个的列的类型：mian_table.types[2][1]

2020-07-24 09:48:57 1566

原创 Python dataFrame 行列遍历

转载：https://www.jb51.net/article/172623.htmiteritems():按列遍历，将DataFrame的每一列迭代为(列名, Series)对，可以通过row[index]对元素进行访问。示例数据 1 2 3 4 5 6 import pandas as pd inp = [{'c1':10, 'c2':100}, {'c1':11, 'c2':110}, {'c1':..

2020-07-23 09:36:10 17282 3

原创 Python 字典、列表写入DataFrame

摘自：https://segmentfault.com/q/1010000020861753如果为｛a:1,2,3,4｝格式将V 改成v.split(",")列表写入list=[1,2,3]df=df.append(list) 表现出的是列增加df.loc[len(df)]=list 表现的是行增加

2020-07-22 16:11:25 4974

原创使用Pyspark计算Spark数据帧每列中非NaN条目的数量

原作者：跃然一笑让我们从虚拟数据开始：from pyspark.sql import Rowrow = Row("v", "x", "y", "z")df = sc.parallelize([ row(0.0, 1, 2, 3.0), row(None, 3, 4, 5.0), row(None, None, 6, 7.0), row(float("Nan"), 8, 9, float("NaN"))]).toDF()## +----+--...

2020-07-20 15:31:21 760

原创 pyspark fillna无反应问题

pyspark fillna（）中填充的类型要和该列的类型要相同，否则无反应也不会报错。如 fillna(0,subset=["col1"]) 可以但是 fillna("0"...)不行

2020-06-23 15:50:00 1712

转载 Spark实现行列转换pivot和unpivot

转自https://www.cnblogs.com/Allen-rg/p/10084933.html转自https://blog.youkuaiyun.com/lquarius/article/details/106685672

2020-06-19 11:20:21 216

原创 Python apply函数使用演例

df = pd.DataFrame({'x': list(range(1,1000)), 'y': list(range(1,1000)),'z': list(range(1,1000))})df.head()def func(m,n,l,a=1,b=2,c=3): h1=m*a+n*b+c h2=m*a+n*b-c h3=[h1,h2] return h1...

2020-04-12 18:51:55 218

原创 python取指定索引的多行

Fzhen_date_ident_m.loc[[1,3,5]]

2020-03-30 09:14:36 2468

转载 Python 画图

转载https://zhuanlan.zhihu.com/p/37406730

2020-02-08 16:03:59 137

原创 tensorflow 2.1导入Tensorflow出现ImportError: DLL load failed: 找不到指定的程序

试过网上的所有办法降低Python到3.6 还有其他的库都不适用于2.1版根据https://github.com/tensorflow/tensorflow/issues/36003装VS2019社区版成功解决>>> import tensorflow as tf2020-01-26 23:03:24.069105: W tensorflow/stream_e...

2020-01-26 23:08:22 6195 6

转载 Python之Numpy数组拼接，组合，连接

转载：https://www.douban.com/note/518335786/?type=like已知reshape函数可以有一维数组形成多维数组ravel函数可以展平数组b.ravel()flatten()函数也可以实现同样的功能区别：ravel只提供视图view，而flatten分配内存存储重塑：用元祖设置维度>>> b.shape=(4,2,3)...

2020-01-15 14:25:08 827

转载 python:pandas 合并多个DataFrame 汇总

转载https://www.jianshu.com/p/5ecea164cec6python 把几个DataFrame合并成一个DataFrame——merge,append,join,concatpandas provides various facilities for easily combining together Series, DataFrame, and Panel o...

2020-01-14 13:07:10 16964

转载 Python之NumPy（axis=0 与axis=1）区分

转载：https://www.cnblogs.com/rrttp/p/8028421.html转自：http://blog.youkuaiyun.com/wangying19911991/article/details/73928172 https://www.zhihu.com/question/5899313结论：记忆； 0 表示按行标签索引向下执行方法 ...

2020-01-07 14:54:17 160

原创 python坐标轴放大、标注栏、三维画图（自用与笔记）

from matplotlib.pyplot import MultipleLocatorfig=plt.figure()plt.plot(geatpy_cgq_qzy_f_da["n"],geatpy_cgq_qzy_f_da["X_dabi"],label="Lx2")plt.plot(geatpy_cgq_qzy_f_2d2a["n"],geatpy_cgq_qzy_f_2d2a["...

2020-01-05 22:41:16 3882

转载 Python动态生成初试变量

转载：https://blog.youkuaiyun.com/u013061183/article/details/78015673Python locals方法1 createVar = locals()2 listTemp = range(1,10)3 for i,s in enumerate(listTemp):4 createVar['a'+i] = s5 print a...

2020-01-01 17:09:52 175

转载 Python 复制列表

从https://www.cnblogs.com/fight-xiao/p/8660208.html转载在python中复制一个新列表，操作不影响原列表的方法有： 1 list1=[1,2,3,4] 1. 使用切片　　切片在python中的作用是非常大的，可用作于所有的可迭代对象。使用: 1 l...

2019-12-12 10:15:12 99

原创 TypeError: only size-1 arrays can be converted to Python scalars

首先,给常感谢遗传算法geatpy优秀的开发者们,谢谢他们的帮助及他们的算法集合代码:http://geatpy.com/今天用遗传算法设置了一个问题,报错出现了:File "H:\pythonchengx_u\凿岩台车数据处理\Zaoyan_robot.py", line 15, in D_HT = np.array([[cos(theta),-sin(theta),0 ,a],......

2019-11-23 21:04:04 1462

原创 python中split处理字符内部多个不确定数量的空格

代码' '.join(pack_df[15].split())参考https://www.cnblogs.com/c-x-a/p/8921685.htmlsplit处理包括了\nsplit用法拓展：对指定个数进行切片

2019-11-04 11:21:02 3117

原创 mysql分组top N 嵌套

对XX国，YY国分别统计其购买最大数量的用户bc bc1表为统计各个用户的购买量SELECT bc1.*FROM(SELECT buyer_country_id,buyer_admin_id,COUNT(0) buycountFROM train_9GROUP BY buyer_admin_id) bc1WHERE bc1.buycount=(SELECT M...

2019-09-14 16:26:19 318 1

原创华为练习：简单密码

replace 会替换字符串中所有索引指代的字符，不能单个替换dic={"abc":'2',"def":'3',"ghi":'4',"jkl":'5',"mno":'6',"pqrs":'7',"tuv":'8',"wxyz":'9',\ "Z":"a"}line=input()for i in range(len(line)): zifu=line[i]# for...

2019-09-11 11:29:20 243

原创牛客网输入格式及map转换int

import sysfor line in sys.stdin: m=line.split() m=list(map(int,m)) print(m[0]+m[1])

2019-09-11 09:40:41 412

原创数据与结构算法:华为机试步长

给定一个正整数数组,最大为100个成员,从第一个成员开始,走到数组最后一个成员最少的步骤数.第一步必须从第一个元素开始,1<=步长<len/2,第二不开始以所在成员数字走相应的部署,如果目标不科大返回-1,只能输出最少的步骤数step_min=[]step_count=2def fist_step(num): for i in range(int(len(...

2019-09-08 10:29:06 1547

原创数据结构与算法:求字符串最大不重复子串

a=input()max_count=[]def zichuan(input_a): count=[] for i in input_a: if i not in count: count.append(i) else: input_a=input_a[1:] max_cou...

2019-08-27 15:41:00 349

原创天池竞赛查漏补缺:set sorted unique drop_duplicates 去重,保持原顺序使用辨析

#%% 去重,顺序随机l1 = ['b','c','d','b','c','a','a']l2=set(l1)#<class 'set'>print(l2,type(l2))l2=list(l2)print(l2,type(l2)){'b', 'c', 'a', 'd'} <class 'set'> ['b', 'c', 'a', 'd'] <cl...

2019-08-23 08:39:53 328

原创天池查漏补缺:mysql:导入csv只有一行的问题

练习尝试:创建表:CREATE TABLE test_csv(id INT,aname VARCHAR(11));INSERT INTO test_csv VALUES(1,'ni');INSERT INTO test_csv VALUES(2,'uii');INSERT INTO test_csv VALUES(3,'nfghi');SELECT * FROM test...

2019-08-18 18:24:19 2031

原创天池大赛查漏补缺:Mysql:错误代码： 1290 The MySQL server is running with the及mysql重启服务名无效

mysql导入CSV错误代码： 1290 The MySQL server is running with the --secure-file-priv option so it cannot execute this错误原因:在安装MySQL的时候限制了导入与导出的目录权限,只能在规定的目录下才能导入1.进入mysql查看secure_file_prive的值$mysql -u r...

2019-08-18 14:57:04 815

原创天池大赛查漏补缺:CSV整列格式替换

1.某一列chong3['item_id'] = chong3['item_id'].astype(np.int32)

2019-08-17 20:47:24 305

原创天池大赛查漏补缺:CSV打开设定列名,及取指定列、行索引,和修改列名

#delimiter=',' 以 , 分割成列也可以以"/n"替代 #name为指定列名test_r=pd.read_csv("H:\\pythonchengx_u\\Antai\\Antai\\data\\Antai_AE_round1_submit_20190715.csv",delimiter=',', header=None, names= ["buyer_id", '1',...

2019-08-17 20:42:58 442

原创天池大赛查漏补缺:TypeError: ufunc 'add' did not contain a loop with signature matching types

为了dateframe两列合并在一起,中间以","分开train['ccount']=train['buyer_admin_id']+','+train['item_id']出现TypeError: ufunc 'add' did not contain a loop with signature matching types一直以为是','的问题因为train['ccount'...

2019-08-17 10:29:26 9590 1

原创天池大赛查漏补缺:top50商品计算

# 商品行为计数，用于计算 top50 热门商品item_statistc = features.groupby(['item_id'])[['user_id']].count()#单一索引/复合索引相关知识我对这个reset_index函数的重要性认识还待提高#http://selectgoodboy.blog.163.com/blog/static/1032120612015191...

2019-08-16 22:32:48 325

原创天池竞赛查漏补缺:python dataframe类型操作替换为数字

# 用户行为置换成数字可用来设置计算总评分或惩罚项features.loc[features['behavior_type']=='clk','behavior_type'] = 1features.loc[features['behavior_type']=='cart','behavior_type'] = -0.5features.loc[features['behavior_t...

2019-08-16 21:24:36 634

原创天池竞赛查漏补缺:CSV结果数据融合

Python数据结构与算法填坑

2019-08-16 15:43:07 443

原创天池竞赛查漏补缺:csv文件列表批量处理AttributeError: 'float' object has no attribute 'replace'

目的:批量处理天池比赛后多个模型数据融合,去除tuijian中的[]问题以下操作出现:AttributeError: 'float' object has no attribute 'replace'错误但是探索发现我的列表里面数据本身为str,无float类型虽然具体float类型指代对象没有找出来(如果哪位朋友知道,希望能提点以下 )但是加上强制转换以下两种方法可以...

2019-08-16 15:17:33 10471 4

原创天池竞赛查漏补缺:关于Python错误提示： 'str' object is not callable

反复检查几遍之后，发现语句没有错误。在控制台输入相同语句，发现可以顺利执行输出正确结果。发现是因为前面的代码将str已经定义为一个普通变量，因此这里调用内置函数str()是无效的，会仍然认为是一个变量，自然就会提示是 not callable。也就是说 str() 是自带的内置函数，不可以在希望使用字符串转换函数的同时自定义一个 str 变量。解决办法两种：...

2019-08-16 09:40:13 193

空空如也

空空如也