- 博客(7)
- 收藏
- 关注
转载 连续特征离散化处理的好处
在特征工程中,我们常常需要对连续型特征进行离散化处理,那么这么做有什么好处呢?下面做简单的总结:1.离散特征的增加和减少都很容易,易于模型的快速迭代;2.系数矩阵内机乘法运算速度更快,计算结果方便存储,易于扩展;3.离散化后的特征对异常数据有很强的鲁棒性。比...
2019-06-06 17:34:30
2628
原创 用python进行数据分析:记录(一)
python数据分析记录用python进行数据分析:记录(一)主要记录一些语法语句的使用Seaborn的joinplot图无法显示pearson相关系数如何让sns.joinplot显示pearson相关系数:1.按自己的思路写的代码显示的图标没有r p系数的显示2.如图3.导入stats,写函数4.如图关于zip()函数和enumerate()函数zip()1.该函...
2019-06-06 17:24:29
929
原创 用python进行数据分析:用户标签的清洗分析
用python进行数据分析:用户标签的清洗分析python:用户标签的清洗分析数据集来源于2019科大讯飞算法营销大赛,目的是求各维度信息对广告点击率的影响。用户标签的数据清洗过程1.看一下用户标签的原数据与具体信息,可以看到有部分空值,且标签以逗号隔开。2.将空值以文本类型填充,以便后续清洗分析。3.我们将标签分割开来,思路为统计topN标签,分析topN标签的点击率状况。...
2019-06-06 17:09:10
1518
原创 用python进行数据分析:杂乱字符串的处理
用python进行数据分析:字母和数字的处理python:字母和数字的清洗数据集来自科大讯飞算法营销大赛,目的是探索各个维度与广告点击率的关系。品牌和机型的数据清洗处理1.让我们先来看一下原数据,清洗思路是合拼机型与品牌再做数据可视化分析。2.来简单探索下原数据,可以看到机型与品牌都有一定的空值,同一品牌有不同的描述语句。3.第一步选择合并两列数据,填充空值为0,并且全部大写处理...
2019-04-24 22:23:27
928
原创 用python进行数据分析:时间戳的处理
python:时间戳处理时间戳时间戳脱敏后的恢复,格式处理数据来自科大讯飞算法营销大赛,处理时间数据的目的是为了探索时间与广告点击率的关系。1.将脱敏后的时间恢复为正常时间格式时间值的提取以及可视化分析维度一:小时2.在这里我们选择小时的单位来进行分析探索,提取hour3.将hour的ge是转化为整数型后,简单探索下hour4.我们将时间分桶,按时间段来探索数据...
2019-04-23 19:18:30
3720
原创 python的error与debug记录1
python:error/debug recordpython的error与debug记录一Length of values does not match length of index[link]代码如下:df_advert[‘advert_industry_inner_f’] = df_advert[‘advert_industry_inner’].str.split(’_’).ge...
2019-04-18 10:14:28
4017
原创 python中文件的导入与导出
[Python学习]:文件导入与导出python中文件的导入与导出文件导入import pandas as pddf = pd.read_csv(‘text.txt’,sep=’\t’,encoding = ‘utf-8’)#df = pd.read_table(‘text.txt’,sep=’\t’,encoding = ‘utf-8’) table同样可以#将txt或csv文件...
2019-04-16 23:31:33
6594
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人