Python数据分析与可视化理论知识

  1. Python数据分析概述

  2. Python数据分析依赖的两个对象

  3. 表格对象实现统计分析

  4. 数据预处理

  5. Matplotlib数据可视化

  6. 总结

Python数据分析概述

数据分析的概述

  1.         数据分析:用适当的统计分析方法将收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
  2.         数据分析的类别:描述性数据分析、探索性数据分析、验证性数据分型。
  3.         广义的数据分析包括狭义数据分析和数据挖掘。

Python数据分析依赖的两个对象

1.导入外部数据

python中读取excel/csv文件的方法:调用pandas库的read_excel/csv函数

#读取cvs数据
data1 = pd.read_csv(r'D:\数据集合集/新用户表.csv',
                   sep=',',
                   encoding='gbk'
                   )
data1

#读取excel数据
data2 = pd.read_excel(r'D:\数据集合集/新明细表.xlsx')
data2

将表格上传至数据库

from sqlalchemy import create_engine 
user = 'root' #用户名
password = '123456' #密码
ip = 'localhost' # ip地址
port = '3306' # 端口
database = 'data_analysis' # 数据库名

# 创建mysql引擎对象,将上述信息写入函数的参数中
engine = create_engine(f'mysql+pymysql://{user}:{password}@{ip}:{port}/{database}') 
engine

# 将表data1写入engine中的数据库中的user表中
data1.to_sql('user',engine,index=False)

 Series序列对象

概念:

  • 利用pandas库从外部读取数据到python中形成的表格叫做DataFrame表格对象
  • Series序列对象即DataFrame表格对象中的某一列数据。
  • Series序列对象简称序列对象,其数据类型是Series。
获取序列对象的方法:

从表格对象中提取序列对象:表格对象[列名称]。
手动生成一个序列对象: pd.Series(列表对象)类生成。

获取序列对象的方法

# 1. 通过表格对象获取
df = pd.read_excel('../数据集/各省份车辆销售数量.xlsx')
df['销售总数']

# 通过pd.Series类生成
series = pd.Series(['a','b','c'])
series

type(series)

Series序列对象的属性

series = pd.Series(['a','b','c'])
print(series.values) # 值
print(series.index) # 索引
print(series.name) # 名称
print(series.dtypes) # 数据类型
print(series.size) # 数据个数

#Series序列对象中局部数据的访问方法
series = pd.Series(['a','b','c'])
print(series)
print('-'*20)
print(series[0])
print('-'*20)
print(series[0:2])
print('-'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值