关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容
pandas可以从不同的数据源加载和导出数据。从下面两张图可以看出,支持的数据源还是比较丰富的。
- 读取数据
- 导出数据
本文以常用的数据库和csv文件为例,做简单介绍。
1. 操作数据库
可以使用pd.read_sql
从数据库读取数据,以及df.to_sql
将dataframe
的数据写入到数据库中。
1.1 读取数据
读取数据库数据时,需要安装相应的驱动包。此处使用pymysql
,再指定用户名、密码、主机等信息,创建数据库连接对象conn
,作为pd.read_sql
入参。
conn=create_engine("mysql+pymysql://root:123456@192.168.100.203:3306/xxl_job?charset=utf8")
df=pd.read_sql("""
select table_schema,
table_name
from information_schema.tables
limit 10""",conn)
df
1.2 导出数据
指定待写入的数据库表名,使用的连接。
df.to_sql("tmp_test_tables",
conn,
# 如果表已存在则重新创建一个
if_exists="replace",
# df的index不写到表里面
index=False)
2. 操作CSV文件
使用pd.read_csv
读取csv文件,以及to_csv
将dataframe的数据写入到csv文件中。
2.1 读取数据
df=pd.read_csv("/home/hadoop/test.csv")
df
2.2 导出数据
df.to_csv("/home/hadoop/test_new.csv",
index=False)
点个关注再走呗👉👉👉
