数据处理与网页文本采集:Pandas、Markup Languages及相关技术
1. Pandas处理表格数据
Pandas模块是处理表格数据和时间序列的综合工具。它能将表格存储在DataFrame数据结构中,还能使用类似数据库的函数进行组合和查询。
- 创建DataFrame :可以使用 pandas.read_csv(filepath, sep='\t') 语句创建读取器,其中 filepath 是文件名或文件对象。若要直接从数据集URL创建DataFrame,因QQP服务器不允许Pandas请求,需使用 requests 模块,并借助 StringIO 创建内存文件,示例代码如下:
import pandas as pd
from io import StringIO
import requests
qqp_url = 'your_url_here'
qqp_pandas = pd.read_csv(
StringIO(requests.get(qqp_url).text),
sep='\t'
)
- 提取行数据 :使用整数位置切片方法
iloc[]提取行,示例如下:
print(qqp_pandas.iloc[447])
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



