
数据清洗
高雅_GaoYa
一个励志成为优秀分析师的孩纸
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python数据清洗学习笔记--数据预处理
python数据清洗学习笔记–数据预处理 重复值处理 • 数据清洗一般先从重复值和缺失值开始处理 • 重复值一般采取删除法来处理 • 但有些重复值不能删除,例如订单明细数据或交易明细数据等 df[df.duplicated()] np.sum(df.duplicated()) df.drop_duplicates() df.drop_duplicates(subset=['appname','...原创 2020-04-04 22:41:11 · 1221 阅读 · 0 评论 -
python数据清洗学习笔记--数据统计
python数据清洗学习笔记–数据统计 文章目录python数据清洗学习笔记--数据统计1、数据分组运算2、聚合函数的使用3、分组对象与apply函数4、透视图与交叉表数据透视表交叉表用于计算分组频率 1、数据分组运算 分组计算根据某个或者某几个字段对数据集进行分组,然后运用特定 的函数,得到结果 • 使用groupby方法进行分组计算,得到分组对象GroupBy • 语法为df.groupby(...原创 2020-04-04 15:51:45 · 393 阅读 · 0 评论 -
python数据清洗学习笔记--数据转换
python数据清洗学习笔记–数据转换 目录python数据清洗学习笔记--数据转换1、日期格式数据处理2、字符串数据处理3、高阶函数数据处理 1、日期格式数据处理 • Pandas中使用to_datetime()方法将文本格式转换为日期格式 • dataframe数据类型如果为datetime64,可以使用dt方法取出年月日等 • 对于时间差数据,可以使用timedelta函数将其转换为指定时间...原创 2020-04-04 11:01:56 · 280 阅读 · 0 评论 -
python数据清洗学习笔记--数据表处理
python数据清洗学习笔记–数据表处理 数据常用筛选方法 • 在数据中,选择需要的行或者列 • 基础索引方式,就是直接引用 • ioc[行索引名称或者条件,列索引名称或者标签] • iloc[行索引位置,列索引位置] 注意, 区分loc和iloc basic[['户主姓名','农户生产经营类型']] basic.loc[0:2,['户主姓名', '户主身份证号']] orde...原创 2020-04-03 16:22:19 · 594 阅读 · 0 评论 -
python数据清洗学习笔记--文件读写
python数据清洗–文件读写 目录python数据清洗--文件读写csv文件读写:excel文件读写:数据库文件的读写:创建连接数据保存: 前期准备: #导入os模块 import os #获得当前路径地址 os.getcwd() # 更改文件路劲 os.chdir('F:\python\数据清洗\代码和数据') #设置最大显示列数 pd.set_option('display....原创 2020-04-02 23:00:05 · 673 阅读 · 0 评论 -
Python数据清洗学习笔记--常用工具
Python数据清洗–常用工具 概述: 目前在Python中, numpy和pandas是最主流的工具 Numpy中的向量化运算使得数据处理变得高效 Pandas提供了大量数据清洗的高效方法 在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率 NumPy: NumPy常用的数据结构 Numpy中常用的数据结构是ndarray格式 使用a...原创 2020-04-02 22:23:07 · 505 阅读 · 0 评论 -
Python数据清洗学习笔记--概述
Python数据清洗学习记录–概述 数据清洗实质上是将实际业务问题中,脏数据清洗干净,转换为’干净的数据’,所谓的脏,指数据可能存在以下几种问题(主要问题): 数据缺失 (Incomplete)是属性值为空的情况。如 Occupancy = “ ” 数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100” 数据不一致 (Inconsistent)是数据前后存在...原创 2020-04-02 22:05:23 · 524 阅读 · 0 评论