Pandas篇介绍
关于这个篇章,我会分为多个文章,分别简述pandas这个热门的科学库的常用语法和案例,希望对读者老爷能起到些许作用。
本篇介绍
pandas有两种数据结构,一种是以单维的Series和多维的Dataframe,支持非常丰富的数据来源,如内存数据的 numy,字典,数组等,也支持外部数据文件的csv,execl等,同样支持读取数据库等数据来源。
数据源
内存数据
内存数据来源 numy,字典,数组等
import pandas as pd
import numpy as np
#一维数据
s = pd.Series([1,2,4])
print(s)
#日期数据
date = pd.date_range('20230303',periods=6)
#pandas生成多维数据
#dataframe类型
#生产多维数据 两者区别在于后者添加了索引,指定了列名
data = pd.DataFrame(np.random.randn(6,4))
data = pd.DataFrame(np.random.randn(6,4),index=date,columns=list('ABCD'))
#字典类型
data = pd.DataFrame({'A':[1,2,3,4],'B':[2,4,5,6]},columns=list('AB'))
print(data)
文件
外部的数据源来源广泛,我就简单用csv和execl两种常用数据举例吧,后续有需要再更新
读取execl
# -*- coding: utf-8 -*-
import pandas as pd
from hanziconv import HanziConv
io = pd.io.excel.ExcelFile("a.xlsx")
data =pd.read_excel(io, sheet_name='a1')
读取csv
import pandas as pd
data = pd.read_csv("D:\code\pythoncode\练习.csv")
update_data = pd.read_csv("产线处理.csv")
# data={"a":[1,1,2,4,3,9],"b":[2,2,3,5,5,10],"c":[3,4,5,6,6,11],"d":[4,5,6,7,8,12]}
# pd_data=pd.DataFrame(data=data)
print(data)
update_data=update_data.append(data)
#
t=update_data.drop_duplicates(subset=['DEPT_CODE','PROCESS_NAME','EQUIP_NAME','TYPE','ITEMS','DESC1'],keep=False)
t.to_csv("新增的數據.csv")
读取数据库
pandas支持的数据库非常多,我们常用的Mysql,Oracle等都支持,这里简单举例说明一下
读取Oracle数据库
写数据
# -*- coding: big5 -*-
import pandas as pd
from sqlalchemy import create_engine,types
engine = create_engine('oracle://用户名:密码@ip:1521/服务名')
#对象转化,提高写入性能
dtyp = {c:types.VARCHAR(data[c].str.len().max()) for c in data.columns[data.dtypes == 'object'].tolist()}
#写入数据库
data.to_sql("MY_CSVS", con=engine,if_exists='append', index=1, index_label=None,dtype=dtyp)
读数据
engine = create_engine('oracle://用户名:密码@ip:1521/服务名')
data = pd.read_sql(usr_name,engine)