数据分析 @python挖掘者
什么是数据分析:
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息形成结论,并对数据加以
详细研究和概括总结的过程.
使用python做数据分析的常用库
1 . numpy 处理基础数值算法
-
scipy 处理科学计算
-
matplotlib 实现数据可视化
-
pandas 提供了序列高级函数
Numpy概述
1 .Numerical Python(数值的python),补充了python语言欠缺的数值运算能力
2.Numpy是其他数据分析和机器学习库的底层库
3.Numpy完全标准c语言实现,运行效率充分优化
4.Numpy开源免费
Numpy历史
1.1995年,Numeric,用于完成python语言数值运算的扩充
2.2001年,Scipy -> Numarray,用于完成多维数组运算
3.2005年,Numeric + Numarray --> Numpy
4.2006年,Numpy脱离了Scrpy成为一个独立项目
Numpy基础
Numpy的核心:ndarray对象
使用numpy.ndarray对象表示一个数组 demoo1.py
import numpy as np
ary = np.array([1,2,3,4,5])
print(ary)
ary = ary*10
print(ary)
内存中的ndarray对象
元数据(metadata)
存储对目标数组的描述信息,如dim count , dimensions,dtype,data等
实际数据
完整的数组数据
将实际数据与元数据分开存放,一方面提高了内存空间的使用效率,另一方面
减少了对实际数据的访问频率,提高性能
ndarray数组对象的创建
np.array(可以被解释为Numpy数组的序列)
np.arange(起始值(0),终止值,步长(1))
np.zeros(数组元素的个数,dtype=‘数组元素类型’)
np.ones(数组元素的个数,dtype=‘数组元素类型’)
案例:测试ndarray对象的创建 demo02.py
import numpy as np#创建二维数组 a = np.array([[1,2,3,4],[5,6,7,8],[9,1,2,3]]) print(a) # np.arange(起始值,结束值,步长) b = np.arange(1,10,