数据获取:Web API与网页抓取
1. 新架构概述
处理HTML数据下载和从源数据中提取表格的新架构如下所示:
graph LR
model --> html_extract
html_extract --> bs4
html_extract --> acquire
html_extract --> kaggle_client
html_extract --> csv_extract
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
class model,html_extract,bs4,acquire,kaggle_client,csv_extract process;
该架构图展示了新的 html_extract 模块相关的类。其中, Download 类使用 urllib.request 打开给定的URL并读取内容,还使用 bs4 (Beautiful Soup)模块解析HTML,定位带有特定标题的表格并提取表格主体。 PairBuilder 类层次结构有四种实现,分别适用于四个不同的数据集。
2. 发起HTML请求
使用 urllib.request 模块可以直接读取网页。 urlopen()
数据获取:Web API与网页抓取项目解析
超级会员免费看
订阅专栏 解锁全文
1327

被折叠的 条评论
为什么被折叠?



