pandas
是 Python 里用于数据处理和分析的强大库,它能够读取多种不同格式的数据。下面为你介绍几种常见数据格式的读取操作:
1. 读取 CSV 文件
CSV(逗号分隔值)文件是常用的数据存储格式,pandas
可借助 read_csv
函数读取。
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('example.csv')
print(df.head())
2. 读取 Excel 文件
若要读取 Excel 文件,可使用 read_excel
函数。
import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('example.xlsx', sheet_name='Sheet1')
print(df.head())
3. 读取 JSON 文件
JSON(JavaScript 对象表示法)是轻量级的数据交换格式,pandas
用 read_json
函数读取。
import pandas as pd
# 读取 JSON 文件
df = pd.read_json('example.json')
print(df.head())
4. 读取 SQL 数据库
若要从 SQL 数据库读取数据,可使用 read_sql
函数。这里以 SQLite 数据库为例。
import pandas as pd
import sqlite3
# 连接到 SQLite 数据库
conn = sqlite3.connect('example.db')
# 从数据库读取数据
query = "SELECT * FROM table_name"
df = pd.read_sql(query, conn)
# 关闭数据库连接
conn.close()
print(df.head())
5. 读取 HTML 表格
pandas
能从 HTML 页面提取表格数据,使用 read_html
函数。
import pandas as pd
# 从 HTML 页面读取表格
url = 'https://example.com'
tables = pd.read_html(url)
# 选择第一个表格
df = tables[0]
print(df.head())
这些示例代码展示了 pandas
读取不同数据格式的基本方法。在实际应用中,你可依据具体需求对函数参数进行调整。