数据提取与图像分析全攻略
在数据处理的过程中,我们常常需要从网页、PDF 文件以及图像中提取有用的数据。下面将详细介绍这些数据提取的方法和工具。
网页数据提取
在网页数据提取方面,之前详细介绍的两个示例并不适用于所有想要提取数据的网页。HTML 中使用表格和定义列表来组织数据是两种常见方式,但还有许多其他约定。元素上特定的域特定或页面特定的 class 和 id 属性也是标记不同数据元素结构角色的常用方法。像 rvest、BeautifulSoup 和 scrapy 等库可以通过元素属性轻松识别和提取 HTML 数据。不过,在编写网页抓取代码时,可能需要尝试多种变体才能得到正确结果。通常,迭代是一个逐步细化的过程,每个阶段都要包含所需信息,然后通过细化去除不需要的部分。
另外,还可以使用命令行网页浏览器 lynx 和 links 进行网页抓取。可以使用系统包管理器安装其中一个或两个工具。这些工具能将 HTML 内容以文本形式输出,如果格式简单,相对容易解析。很多时候,通过查找缩进模式、垂直空间、特定关键词或进行类似的文本处理,比使用 rvest 或 BeautifulSoup 等解析库反复尝试能更快获取所需数据。当然,这也需要一定的人工检查和重试命令。对于熟悉文本处理工具的人来说,这种方法值得考虑。
这两个文本模式的网页浏览器都有 -dump 开关,可将非交互式文本输出到标准输出。它们还有各种其他开关,可以以不同方式调整文本的渲染。这两个工具的输出相似,但后续脚本需要注意细微差异。每个浏览器都能很好地将 90% 的网页以易于处理的文本形式输出。对于剩下有问题的 10%,通常其中一个工具能输出可解析的内容。在某些情况下,一个浏览器可能产生有用结果,而另一个则不能
超级会员免费看
订阅专栏 解锁全文
1036

被折叠的 条评论
为什么被折叠?



