pandas篇之数据的读取

躺平的乐子人

已于 2023-03-03 13:06:51 修改

阅读量873

点赞数 1

分类专栏： Python 文章标签： pandas python 数据分析

于 2023-03-03 11:56:08 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_73368873/article/details/129316915

版权

Python 专栏收录该内容

20 篇文章

订阅专栏

本文介绍了Pandas库中的数据结构Series和DataFrame，以及如何从内存、CSV、Excel文件和数据库中读取数据。示例包括创建和操作数据，以及使用pandas与Oracle数据库的交互。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pandas篇介绍

关于这个篇章，我会分为多个文章，分别简述pandas这个热门的科学库的常用语法和案例，希望对读者老爷能起到些许作用。

本篇介绍

pandas有两种数据结构，一种是以单维的Series和多维的Dataframe,支持非常丰富的数据来源，如内存数据的 numy，字典，数组等，也支持外部数据文件的csv，execl等，同样支持读取数据库等数据来源。

数据源

内存数据

内存数据来源 numy，字典，数组等

import pandas as pd
import numpy as np
#一维数据
s = pd.Series([1,2,4])
print(s)
#日期数据
date = pd.date_range('20230303',periods=6)
#pandas生成多维数据
#dataframe类型
#生产多维数据 两者区别在于后者添加了索引，指定了列名
data = pd.DataFrame(np.random.randn(6,4))
data = pd.DataFrame(np.random.randn(6,4),index=date,columns=list('ABCD'))
#字典类型
data = pd.DataFrame({'A':[1,2,3,4],'B':[2,4,5,6]},columns=list('AB'))
print(data)

文件

外部的数据源来源广泛，我就简单用csv和execl两种常用数据举例吧，后续有需要再更新

读取execl

# -*- coding: utf-8 -*-  
import pandas as pd
from hanziconv import HanziConv

io = pd.io.excel.ExcelFile("a.xlsx")
data =pd.read_excel(io, sheet_name='a1')

读取csv

import pandas as pd

data = pd.read_csv("D:\code\pythoncode\练习.csv")

update_data = pd.read_csv("产线处理.csv")

# data={"a":[1,1,2,4,3,9],"b":[2,2,3,5,5,10],"c":[3,4,5,6,6,11],"d":[4,5,6,7,8,12]}
# pd_data=pd.DataFrame(data=data)
print(data)
update_data=update_data.append(data)
#
t=update_data.drop_duplicates(subset=['DEPT_CODE','PROCESS_NAME','EQUIP_NAME','TYPE','ITEMS','DESC1'],keep=False)
t.to_csv("新增的數據.csv")

读取数据库

pandas支持的数据库非常多，我们常用的Mysql，Oracle等都支持，这里简单举例说明一下

读取Oracle数据库

写数据

# -*- coding: big5 -*-  
import pandas as pd
from sqlalchemy import create_engine,types
engine = create_engine('oracle://用户名:密码@ip:1521/服务名')
#对象转化，提高写入性能
dtyp = {c:types.VARCHAR(data[c].str.len().max()) for c in data.columns[data.dtypes == 'object'].tolist()}
#写入数据库
data.to_sql("MY_CSVS", con=engine,if_exists='append', index=1, index_label=None,dtype=dtyp)

读数据

  engine = create_engine('oracle://用户名:密码@ip:1521/服务名')
  data = pd.read_sql(usr_name,engine)