原文:Chapter 9
import pandas as pd
import sqlite3
到目前为止,我们只涉及从 CSV 文件中读取数据。 这是一个存储数据的常见方式,但有很多其它方式! Pandas 可以从 HTML,JSON,SQL,Excel(!!!),HDF5,Stata 和其他一些东西中读取数据。 在本章中,我们将讨论从 SQL 数据库读取数据。
您可以使用pd.read_sql函数从 SQL 数据库读取数据。 read_sql将自动将 SQL 列名转换为DataFrame列名。
read_sql需要 2 个参数:SELECT语句和数据库连接对象。 这是极好的,因为它意味着你可以从任何种类的 SQL 数据库读取 - 无论是 MySQL,SQLite,PostgreSQL 或其他东西。
此示例从 SQLite 数据库读取,但任何其他数据库将以相同的方式工作。
con = sqlite3.connect("../data/weather_2012.sqlite")
df = pd.read_sql("SELECT * from weather_2012 LIMIT 3", con)
df
| id | date_time | temp |
|---|---|---|
| 0 | 1 | 2012-01-01 00:00:00 |
| 1 | 2 | 2012-01-01 01:00:00 |
| 2 | 3 | 2012-01-01 02:00:00 |
read_sql不会自动将主键(id)设置为DataFrame的索引。 你可以通过向read_sql添加一个index_col参数来实现。
如果你大量使用read_csv,你可能已经看到它有一个index_col参数。 这个行为是一样的。
df = pd.read_sql("SELECT * from weather_2012 LIMIT 3", con, index_col='id')
df
| date_time | temp |
|---|---|
| id | |
| 1 | 2012-01-01 00:00:00 |
| 2 | 2012-01-01 01:00:00 |
| 3 | 2012-01-01 02:00:00 |
如果希望DataFrame由多个列索引,可以将列的列表提供给index_col:
df = pd.read_sql("SELECT * from weather_2012 LIMIT 3", con,
index_col=['id', 'date_time'])
df
| temp | |
|---|---|
| id | date_time |
| 1 | 2012-01-01 00:00:00 |
| 2 | 2012-01-01 01:00:00 |
| 3 | 2012-01-01 02:00:00 |
9.2 写入 SQLite 数据库
Pandas 拥有write_frame函数,它从DataFrame创建一个数据库表。 现在这只适用于 SQLite 数据库。 让我们使用它,来将我们的 2012 天气数据转换为 SQL。
你会注意到这个函数在pd.io.sql中。 在pd.io中有很多有用的函数,用于读取和写入各种类型的数据,值得花一些时间来探索它们。 (请参阅文档!)
weather_df = pd.read_csv('../data/weather_2012.csv')
con = sqlite3.connect("../data/test_db.sqlite")
con.execute("DROP TABLE IF EXISTS weather_2012")
weather_df.to_sql("weather_2012", con)
我们现在可以从test_db.sqlite中的weather_2012表中读取数据,我们看到我们得到了相同的数据:
con = sqlite3.connect("../data/test_db.sqlite")
df = pd.read_sql("SELECT * from weather_2012 LIMIT 3", con)
df
| index | Date/Time | Temp (C) | Dew Point Temp (C) | Rel Hum (%) | Wind Spd (km/h) | Visibility (km) | Stn Press (kPa) | Weather |
|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 2012-01-01 00:00:00 | -1.8 | -3.9 | 86 | 4 | 8 | 101.24 |
| 1 | 1 | 2012-01-01 01:00:00 | -1.8 | -3.7 | 87 | 4 | 8 | 101.24 |
| 2 | 2 | 2012-01-01 02:00:00 | -1.8 | -3.4 | 89 | 7 | 4 | 101.26 |
在数据库中保存数据的好处在于,可以执行任意的 SQL 查询。 这非常酷,特别是如果你更熟悉 SQL 的情况下。 以下是Weather列排序的示例:
| index | Date/Time | Temp (C) | Dew Point Temp (C) | Rel Hum (%) | Wind Spd (km/h) | Visibility (km) | Stn Press (kPa) | Weather |
|---|---|---|---|---|---|---|---|---|
| 0 | 67 | 2012-01-03 19:00:00 | -16.9 | -24.8 | 50 | 24 | 25 | 101.74 |
| 1 | 114 | 2012-01-05 18:00:00 | -7.1 | -14.4 | 56 | 11 | 25 | 100.71 |
| 2 | 115 | 2012-01-05 19:00:00 | -9.2 | -15.4 | 61 | 7 | 25 | 100.80 |
如果你有一个 PostgreSQL 数据库或 MySQL 数据库,从它读取的工作方式与从 SQLite 数据库读取完全相同。 使用psycopg2.connect()或MySQLdb.connect()创建连接,然后使用
pd.read_sql("SELECT whatever from your_table", con)
9.3 连接到其它类型的数据库
为了连接到 MySQL 数据库:
注:为了使其正常工作,你需要拥有 MySQL/PostgreSQL 数据库,并带有正确的localhost,数据库名称,以及其他。
import MySQLdb con = MySQLdb.connect(host="localhost", db="test")
为了连接到 PostgreSQL 数据库:
import psycopg2 con = psycopg2.connect(host="localhost")
本文介绍了如何使用Pandas从SQL数据库读取数据并写入数据。包括使用read_sql函数读取不同类型的SQL数据库,如SQLite、MySQL和PostgreSQL等,并展示了如何利用to_sql函数将DataFrame写入SQLite数据库。
1395

被折叠的 条评论
为什么被折叠?



