
python数据分析
涉及python中包学习和内置函数语法的学习
fightinglearning
这个作者很懒,什么都没留下…
展开
-
DW模型搭建和评估
DW模型搭建和评估特征工程缺失值填充(清洗)编码分类变量(重构)模型搭建train_test_split模型创建逻辑回归随机森林输出模型预测结果模型评估交叉验证混淆矩阵ROC曲线经过前面的探索性数据分析、数据清洗重构可视化后,我们可以很清楚的了解到数据集的情况,下面我们进一步探索模型搭建和模型评估。from IPython.display import Image #调用Imageplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签p原创 2020-08-28 21:50:53 · 1788 阅读 · 0 评论 -
DW数据可视化
DW数据可视化柱状图折线图kdeplot散点图3D图**复习:在数据的清理和重构基础上,为了更好的看到每一个关键步骤的结果如何,使得数据更加的易于理解;*数据可视化是一个很有用的技巧。柱状图处理离散型数据任务二:可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)。sex = text.groupby('Sex')['Survived'].sum()sex.plot.bar() #Seris.plot.bar()plt.title('survived_count')plt原创 2020-08-25 23:00:42 · 1076 阅读 · 0 评论 -
DW数据重构
DW数据重构数据合并pd.concat([df1,df2,df3],axis=0/1,join='outer',ignore_index=True,join_axes=[df1.index])纵向合并df1.append(df2,ignore_index=True)横向合并df1.join(df2)pd.merge()将数据变为Series类型的数据GroupBy机制数据合并pd.concat([df1,df2,df3],axis=0/1,join=‘outer’,ignore_index=True,j原创 2020-08-23 21:47:47 · 280 阅读 · 0 评论 -
DW数据清洗及特征处理
DW数据清洗及特征处理1 缺失值观察与处理2 重复值观察与处理3 特征观察与处理数据清洗及特征处理可以让数据看起来规律性更强,为后面操作做铺垫。我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的亚子。1 缺失值观察与处理我们拿到的数据经常会有很多缺失值,比如我们可以看到Cabin列存在NaN,那其他列还有没有原创 2020-08-21 21:49:57 · 697 阅读 · 0 评论 -
DW数据加载及探索性数据分析
DW数据加载及探索性数据分析)1数据载入及初步观察1.1 载入数据1.2 初步观察1.3 保存数据1数据载入及初步观察通过数据分析的实战教学,完成kaggle上泰坦尼克的任务,实战数据分析全流程。参考资料:教材《Python for Data Analysis》1.1 载入数据1.1.2 任务二:载入数据(1) 使用相对路径载入数据(2) 使用绝对路径载入数据df=pd.read_csv("train.csv")df.head()df1 = pd.read_csv("C:/Users原创 2020-08-19 22:19:13 · 867 阅读 · 0 评论 -
python正则表达式
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2020-07-07 18:30:33 · 697 阅读 · 0 评论 -
pandas 变形
变形一、透视表1. pivot2. pivot_table3. crosstab(交叉表)二、其他变形方法1. melt2. 压缩与展开三、哑变量与因子化1. Dummy Variable(哑变量)2. factorize方法一、透视表1. pivot一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列...原创 2020-04-28 21:10:40 · 191 阅读 · 0 评论 -
pandas 分组
pandas 分组一、SAC过程1. 内涵2. apply过程二、groupby函数1. 分组函数的基本内容:(c)组容量与组数2. groupby对象的特点从原理上说,我们可以看到利用函数时,传入的对象就是索引,因此根据这一特性可以做一些复杂的操作三、聚合、过滤和变换1. 聚合(Aggregation)2. 过滤(Filteration)3. 变换(Transformation)四、apply函...原创 2020-04-26 21:24:44 · 426 阅读 · 0 评论 -
Pandas 索引
索引一、单级索引1. loc方法、iloc方法、[]操作符最常用的索引方法可能就是这三类,其中iloc表示位置索引,loc表示标签索引,[]也具有很大的便利性,各有特点(a)loc方法(注意:所有在loc中使用的切片全部包含右端点!)① 单行索引:② 多行索引:③ 单列索引:④ 多列索引:⑤ 联合索引:⑥ 函数式索引:⑦ 布尔索引小节:本质上说,loc中能传入的只有布尔列表和索引子集构成的列表,只...原创 2020-04-23 20:38:59 · 331 阅读 · 0 评论 -
pandas基础
pandas基础知识文件读取与写入基本数据结构1. Series2. DataFrame常用基本函数排序问题练习总结文件读取与写入文件读取的格式:pd.read_csv(‘文件名’)pd.read_txt(‘文件名’)pd.read_excel(‘文件名’) 前提:有xlrd包read_hdf ,read_sql,read_json,read_html还有stata...原创 2020-04-20 21:57:51 · 183 阅读 · 0 评论