-
Python数据分析概述
-
Python数据分析依赖的两个对象
-
表格对象实现统计分析
-
数据预处理
-
Matplotlib数据可视化
-
总结
Python数据分析概述
数据分析的概述
- 数据分析:用适当的统计分析方法将收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
- 数据分析的类别:描述性数据分析、探索性数据分析、验证性数据分型。
- 广义的数据分析包括狭义数据分析和数据挖掘。
Python数据分析依赖的两个对象
1.导入外部数据
python中读取excel/csv文件的方法:调用pandas库的read_excel/csv函数
#读取cvs数据
data1 = pd.read_csv(r'D:\数据集合集/新用户表.csv',
sep=',',
encoding='gbk'
)
data1
#读取excel数据
data2 = pd.read_excel(r'D:\数据集合集/新明细表.xlsx')
data2
将表格上传至数据库
from sqlalchemy import create_engine
user = 'root' #用户名
password = '123456' #密码
ip = 'localhost' # ip地址
port = '3306' # 端口
database = 'data_analysis' # 数据库名
# 创建mysql引擎对象,将上述信息写入函数的参数中
engine = create_engine(f'mysql+pymysql://{user}:{password}@{ip}:{port}/{database}')
engine
# 将表data1写入engine中的数据库中的user表中
data1.to_sql('user',engine,index=False)
Series序列对象
概念:
- 利用pandas库从外部读取数据到python中形成的表格叫做DataFrame表格对象
- Series序列对象即DataFrame表格对象中的某一列数据。
- Series序列对象简称序列对象,其数据类型是Series。
获取序列对象的方法:
从表格对象中提取序列对象:表格对象[列名称]。
手动生成一个序列对象: pd.Series(列表对象)类生成。
获取序列对象的方法
# 1. 通过表格对象获取
df = pd.read_excel('../数据集/各省份车辆销售数量.xlsx')
df['销售总数']
# 通过pd.Series类生成
series = pd.Series(['a','b','c'])
series
type(series)
Series序列对象的属性
series = pd.Series(['a','b','c'])
print(series.values) # 值
print(series.index) # 索引
print(series.name) # 名称
print(series.dtypes) # 数据类型
print(series.size) # 数据个数
#Series序列对象中局部数据的访问方法
series = pd.Series(['a','b','c'])
print(series)
print('-'*20)
print(series[0])
print('-'*20)
print(series[0:2])
print('-'