利用python进行数据分析

该博客详细介绍了使用Python进行数据分析的全过程,从准备工作到数据规整化,包括ipython、numpy和pandas的基础应用,数据加载、储存和文件格式的处理,以及数据的清理、转换、合并、重塑。重点讲解了数据的统计分析、绘图和可视化,以及时间序列和金融经济数据的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一章 准备工作

第二章 引言

需要完成的任务:1、与外界进行交互:读写文件和数据库;2、准备:对数据进行预处理;3、转换:将处理完的数据集依照需要进行的目的进行转换;4、建模和计算:将数据与其他机器学习算法相结合;5、展示:即数据可视化
fillna函数替换缺失值:a=frame[‘xz’].fillna(‘missing’)
空字符串也可以被替换:a[a=’ ']=‘unknown’
series对象的value_counts方法:返回各个变量取值的数量个数。
水平条形图:利用上述返回的变量取值个数.plot(kind=‘bath’,rot=0)
np.where(bool 表达式,x,y):返回当这三个参数格式相同时,bool为真时,将表达式中的位置用x代替,为假时,用y代替。如果只有表达式,则返回表达式的下标,以元组形式返回。

第三章 ipython

第四章 numpy基础和矢量计算

多维数组对象:ndarray 构造格式 array([],[]) 适用加减运算。每个数组包含一个shape(一个包含数组大小的元组)和一个dtype(包含数组类型的对象)。
np.array(数组):np.array会为数组选择一个合适的格式;数据类型保存在一个特定的dtype中
arange 是range的数组表示:如 np.arange(15) 则 输出 array([0,1, ,14])
利用astype 将数据类型进行转换,
对ndarray的操作都是在视图上进行的操作,即对数组元素的改变会映射到原始数组。若想建立新的数组,需要显式地进行复制,如copy函数。b=a.copy()
使用rand生成随机矩阵,如rand(4,5)
转置:arr.T 其他多维转置 详见109
在这里插入图片描述
在这里插入图片描述

内积:np.dot(arr,arr.T)
通用函数(ufunc):快速的元素级数组元素,如sqrt,exp等(接受一个数组),maximum和add将两个数组间每个元素进行操作,其他常见的 详见110
矢量化:用数组表达式代替循环,会比python表达式快上一到两个数量级。
数组统计方法:如mean std 详见 116
在这里插入图片描述

使用上述方法,布尔值将转换为0和1,所以常用 sum来计算非负值的个数。
排序:sort 当输入维度时,将相应的维度进行排序。
排序并返回集合:unique
二进制数组以默认后缀.npy保存的,np.save(‘文件名‘,arr) np.load(‘文件名.npy’);还可以将多个数组存为一个文件中。
文本数组的读取,如 arr=np.loadtxt(‘array.txt’,delimiter=’ ') np.savetxt
矩阵的乘积:x.dot(y) 等同于 np.dot(x,y)
numpy.linalg 包含求逆和行列式,详见121
在这里插入图片描述
numpy.random对原有的随机库进行了补充,详见123
在这里插入图片描述

第五章 pandas 入门

pandas的两种数据结构,series 和 dataframe
可以将Series看作是一个定长的有序字典,可以将字典直接转换为Series,会在算术运算中自动对齐不同索引的数据。
嵌套字典:外层键作为列,内层键作为行索引。
reindex:将索引重新整理,可以附带有方法,详见138
在这里插入图片描述
丢弃指定轴的项:drop函数,返回的是一个新对象。
关于标签的切片是闭区间。
默认情况下,series与dataframe之间的计算是将series 的索引对应 dataframe的列,然后按行传播。
按值对series排序,使用order方法。
按值对dataframe排序,使用sort_index方法,传入要排序的列。
描述和汇总统计,详见156。
在这里插入图片描述

在这里插入图片描述

对缺失值进行处理
在这里插入图片描述
处理缺失数据:可以将dataframe中的全部为空的删掉或者某一为空的删掉,选择方法how=‘any’
填充缺失数据:fillna()
层次化索引:为一个data赋予多个索引值。
将一个或多个列转换为行索引,set_index

第六章 数据加载、储存和文件格式

读写文本格式的数据

在这里插入图片描述
解析文件函数的参数
在这里插入图片描述
在这里插入图片描述

将文件输出到csv格式,to_csv
将json数据转换为python格式,json.loads

第七章 数据规整化:清理、转换、合并、重塑

利用merge函数将两个dataframe 按行合并
replace用于将值进行替换

第八章 绘图和可视化

第九章 数据聚合与分组计算

第十章 时间序列

第十一章 金融和经济数据应用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值