- 博客(40)
- 收藏
- 关注
原创 hive 时间运算
date_add(from_unixtime(unix_timestamp(batch_date,'yyyymmdd'),"yyyy-mm-dd"),1)date_add格式要求为2020-10-01才能加减
2020-11-11 10:37:50
525
原创 pyspark 模型训练 列名问题
模型训练时,如果变量是从hive中直接拿取,则通用但是当变量是现场加工时,变量的大小写可能和它默认的列名大小写不同,可能会报错
2020-09-13 18:14:27
254
原创 Python DataFrame 去除指定内容
tab=tab.loc[~tab.val_name.isin(ignore)]val_name 列名ignore去除的指定内容 为list
2020-09-05 18:13:25
1986
转载 pySpark dataframe列中获取最大值的最佳方法
转载https://www.itranslater.com/qa/details/2582633432329225216from pyspark.sql.functions import mean, min, maxresult = df.select([mean("A"), min("A"), max("A")])result.show()+------+------+------+|avg(A)|min(A)|max(A)|+------+------+------+| 2.
2020-07-30 11:05:08
8071
原创 pyspark 众数填充空值
转自:https://medium.com/@aieeshashafique/exploratory-data-analysis-using-pyspark-dataframe-in-python-bd55c02a2852def mode_of_pyspark_columns(df, cat_col_list, verbose=False): col_with_mode=[] for col in cat_col_list: #Filter null ...
2020-07-29 17:35:10
1435
原创 pyspark 获取表的列名和列的结构组合的列表
mian_table.types第三个的列名:mian_table.types[2][0]第三个的列的类型:mian_table.types[2][1]
2020-07-24 09:48:57
1512
原创 Python dataFrame 行列遍历
转载:https://www.jb51.net/article/172623.htmiteritems():按列遍历,将DataFrame的每一列迭代为(列名, Series)对,可以通过row[index]对元素进行访问。示例数据 1 2 3 4 5 6 import pandas as pd inp = [{'c1':10, 'c2':100}, {'c1':11, 'c2':110}, {'c1':..
2020-07-23 09:36:10
16929
3
原创 Python 字典、列表写入DataFrame
摘自:https://segmentfault.com/q/1010000020861753如果为{a:1,2,3,4}格式 将V 改成v.split(",")列表写入list=[1,2,3]df=df.append(list) 表现出的是列增加df.loc[len(df)]=list 表现的是行增加
2020-07-22 16:11:25
4916
原创 使用Pyspark计算Spark数据帧每列中非NaN条目的数量
原作者:跃然一笑让我们从虚拟数据开始:from pyspark.sql import Rowrow = Row("v", "x", "y", "z")df = sc.parallelize([ row(0.0, 1, 2, 3.0), row(None, 3, 4, 5.0), row(None, None, 6, 7.0), row(float("Nan"), 8, 9, float("NaN"))]).toDF()## +----+--...
2020-07-20 15:31:21
698
原创 pyspark fillna无反应问题
pyspark fillna()中填充的类型要和该列的类型要相同,否则无反应也不会报错。如 fillna(0,subset=["col1"]) 可以 但是 fillna("0"...)不行
2020-06-23 15:50:00
1659
转载 Spark实现行列转换pivot和unpivot
转自https://www.cnblogs.com/Allen-rg/p/10084933.html转自https://blog.youkuaiyun.com/lquarius/article/details/106685672
2020-06-19 11:20:21
184
原创 Python apply函数使用演例
df = pd.DataFrame({'x': list(range(1,1000)), 'y': list(range(1,1000)),'z': list(range(1,1000))})df.head()def func(m,n,l,a=1,b=2,c=3): h1=m*a+n*b+c h2=m*a+n*b-c h3=[h1,h2] return h1...
2020-04-12 18:51:55
185
原创 tensorflow 2.1导入Tensorflow出现ImportError: DLL load failed: 找不到指定的程序
试过网上的所有办法 降低Python到3.6 还有其他的库 都不适用于2.1版根据https://github.com/tensorflow/tensorflow/issues/36003装VS2019社区版成功解决>>> import tensorflow as tf2020-01-26 23:03:24.069105: W tensorflow/stream_e...
2020-01-26 23:08:22
6165
6
转载 Python之Numpy数组拼接,组合,连接
转载:https://www.douban.com/note/518335786/?type=like已知reshape函数可以有一维数组形成多维数组ravel函数可以展平数组b.ravel()flatten()函数也可以实现同样的功能区别:ravel只提供视图view,而flatten分配内存存储重塑:用元祖设置维度>>> b.shape=(4,2,3)...
2020-01-15 14:25:08
798
转载 python:pandas 合并多个DataFrame 汇总
转载https://www.jianshu.com/p/5ecea164cec6python 把几个DataFrame合并成一个DataFrame——merge,append,join,concatpandas provides various facilities for easily combining together Series, DataFrame, and Panel o...
2020-01-14 13:07:10
16866
转载 Python之NumPy(axis=0 与axis=1)区分
转载:https://www.cnblogs.com/rrttp/p/8028421.html转自:http://blog.youkuaiyun.com/wangying19911991/article/details/73928172 https://www.zhihu.com/question/5899313结论:记忆; 0 表示按行标签索引向下执行方法 ...
2020-01-07 14:54:17
137
原创 python坐标轴放大、标注栏、三维画图(自用与笔记)
from matplotlib.pyplot import MultipleLocatorfig=plt.figure()plt.plot(geatpy_cgq_qzy_f_da["n"],geatpy_cgq_qzy_f_da["X_dabi"],label="Lx2")plt.plot(geatpy_cgq_qzy_f_2d2a["n"],geatpy_cgq_qzy_f_2d2a["...
2020-01-05 22:41:16
3821
转载 Python动态生成初试变量
转载:https://blog.youkuaiyun.com/u013061183/article/details/78015673Python locals方法1 createVar = locals()2 listTemp = range(1,10)3 for i,s in enumerate(listTemp):4 createVar['a'+i] = s5 print a...
2020-01-01 17:09:52
154
转载 Python 复制列表
从https://www.cnblogs.com/fight-xiao/p/8660208.html转载在python中复制一个新列表,操作不影响原列表的方法有: 1 list1=[1,2,3,4] 1. 使用切片 切片在python中的作用是非常大的,可用作于所有的可迭代对象。使用: 1 l...
2019-12-12 10:15:12
75
原创 TypeError: only size-1 arrays can be converted to Python scalars
首先,给常感谢遗传算法geatpy优秀的开发者们,谢谢他们的帮助及他们的算法集合代码:http://geatpy.com/今天用遗传算法设置了一个问题,报错出现了:File "H:\pythonchengx_u\凿岩台车数据处理\Zaoyan_robot.py", line 15, in D_HT = np.array([[cos(theta),-sin(theta),0 ,a],......
2019-11-23 21:04:04
1429
原创 python中split处理字符内部多个不确定数量的空格
代码' '.join(pack_df[15].split())参考https://www.cnblogs.com/c-x-a/p/8921685.htmlsplit处理包括了\nsplit用法拓展:对指定个数进行切片
2019-11-04 11:21:02
3059
原创 mysql分组top N 嵌套
对XX国,YY国分别统计其购买最大数量的用户bc bc1表为统计各个用户的购买量SELECT bc1.*FROM(SELECT buyer_country_id,buyer_admin_id,COUNT(0) buycountFROM train_9GROUP BY buyer_admin_id) bc1WHERE bc1.buycount=(SELECT M...
2019-09-14 16:26:19
295
1
原创 华为练习:简单密码
replace 会替换字符串中 所有索引指代的字符 ,不能单个替换dic={"abc":'2',"def":'3',"ghi":'4',"jkl":'5',"mno":'6',"pqrs":'7',"tuv":'8',"wxyz":'9',\ "Z":"a"}line=input()for i in range(len(line)): zifu=line[i]# for...
2019-09-11 11:29:20
220
原创 牛客网输入格式及map转换int
import sysfor line in sys.stdin: m=line.split() m=list(map(int,m)) print(m[0]+m[1])
2019-09-11 09:40:41
388
原创 数据与结构算法:华为机试步长
给定一个正整数数组,最大为100个成员,从第一个成员开始,走到数组最后一个成员最少的步骤数.第一步必须从第一个元素开始,1<=步长<len/2,第二不开始以所在成员数字走相应的部署,如果目标不科大返回-1,只能输出最少的步骤数step_min=[]step_count=2def fist_step(num): for i in range(int(len(...
2019-09-08 10:29:06
1513
原创 数据结构与算法:求字符串最大不重复子串
a=input()max_count=[]def zichuan(input_a): count=[] for i in input_a: if i not in count: count.append(i) else: input_a=input_a[1:] max_cou...
2019-08-27 15:41:00
317
原创 天池竞赛查漏补缺:set sorted unique drop_duplicates 去重,保持原顺序使用辨析
#%% 去重,顺序随机l1 = ['b','c','d','b','c','a','a']l2=set(l1)#<class 'set'>print(l2,type(l2))l2=list(l2)print(l2,type(l2)){'b', 'c', 'a', 'd'} <class 'set'> ['b', 'c', 'a', 'd'] <cl...
2019-08-23 08:39:53
298
原创 天池查漏补缺:mysql:导入csv只有一行的问题
练习尝试:创建表:CREATE TABLE test_csv(id INT,aname VARCHAR(11));INSERT INTO test_csv VALUES(1,'ni');INSERT INTO test_csv VALUES(2,'uii');INSERT INTO test_csv VALUES(3,'nfghi');SELECT * FROM test...
2019-08-18 18:24:19
1970
原创 天池大赛查漏补缺:Mysql:错误代码: 1290 The MySQL server is running with the及mysql重启服务名无效
mysql导入CSV错误代码: 1290 The MySQL server is running with the --secure-file-priv option so it cannot execute this错误原因:在安装MySQL的时候限制了导入与导出的目录权限,只能在规定的目录下才能导入1.进入mysql查看secure_file_prive的值$mysql -u r...
2019-08-18 14:57:04
788
原创 天池大赛查漏补缺:CSV整列格式替换
1.某一列chong3['item_id'] = chong3['item_id'].astype(np.int32)
2019-08-17 20:47:24
284
原创 天池大赛查漏补缺:CSV打开设定列名,及取指定列、行索引,和修改列名
#delimiter=',' 以 , 分割成列 也可以以"/n"替代 #name为指定列名test_r=pd.read_csv("H:\\pythonchengx_u\\Antai\\Antai\\data\\Antai_AE_round1_submit_20190715.csv",delimiter=',', header=None, names= ["buyer_id", '1',...
2019-08-17 20:42:58
401
原创 天池大赛查漏补缺:TypeError: ufunc 'add' did not contain a loop with signature matching types
为了dateframe两列合并在一起,中间以","分开train['ccount']=train['buyer_admin_id']+','+train['item_id']出现TypeError: ufunc 'add' did not contain a loop with signature matching types一直以为是','的问题 因为train['ccount'...
2019-08-17 10:29:26
9504
1
原创 天池大赛查漏补缺:top50商品计算
# 商品行为计数,用于计算 top50 热门商品item_statistc = features.groupby(['item_id'])[['user_id']].count()#单一索引/复合索引相关知识 我对这个reset_index函数的重要性认识还待提高#http://selectgoodboy.blog.163.com/blog/static/1032120612015191...
2019-08-16 22:32:48
292
原创 天池竞赛查漏补缺:python dataframe类型操作替换为数字
# 用户行为置换成数字 可用来设置计算总评分或惩罚项features.loc[features['behavior_type']=='clk','behavior_type'] = 1features.loc[features['behavior_type']=='cart','behavior_type'] = -0.5features.loc[features['behavior_t...
2019-08-16 21:24:36
585
原创 天池竞赛查漏补缺:csv文件列表批量处理AttributeError: 'float' object has no attribute 'replace'
目的:批量处理天池比赛后多个模型数据融合,去除tuijian中的[]问题以下操作出现:AttributeError: 'float' object has no attribute 'replace'错误但是探索发现我的列表里面数据本身为str,无float类型虽然具体float类型指代对象没有找出来(如果哪位朋友知道,希望能提点以下 )但是加上强制转换以下两种方法可以...
2019-08-16 15:17:33
10370
4
原创 天池竞赛查漏补缺:关于Python错误提示: 'str' object is not callable
反复检查几遍之后,发现语句没有错误。在控制台输入相同语句,发现可以顺利执行输出正确结果。发现是因为前面的代码将str已经定义为一个普通变量,因此这里调用内置函数str()是无效的,会仍然认为是一个变量,自然就会提示是 not callable。也就是说 str() 是自带的内置函数,不可以在希望使用字符串转换函数的同时自定义一个 str 变量。 解决办法两种:...
2019-08-16 09:40:13
170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人