13、数据提取与图像分析全攻略

数据提取与图像分析全攻略

在数据处理的过程中,我们常常需要从网页、PDF 文件以及图像中提取有用的数据。下面将详细介绍这些数据提取的方法和工具。

网页数据提取

在网页数据提取方面,之前详细介绍的两个示例并不适用于所有想要提取数据的网页。HTML 中使用表格和定义列表来组织数据是两种常见方式,但还有许多其他约定。元素上特定的域特定或页面特定的 class 和 id 属性也是标记不同数据元素结构角色的常用方法。像 rvest、BeautifulSoup 和 scrapy 等库可以通过元素属性轻松识别和提取 HTML 数据。不过,在编写网页抓取代码时,可能需要尝试多种变体才能得到正确结果。通常,迭代是一个逐步细化的过程,每个阶段都要包含所需信息,然后通过细化去除不需要的部分。

另外,还可以使用命令行网页浏览器 lynx 和 links 进行网页抓取。可以使用系统包管理器安装其中一个或两个工具。这些工具能将 HTML 内容以文本形式输出,如果格式简单,相对容易解析。很多时候,通过查找缩进模式、垂直空间、特定关键词或进行类似的文本处理,比使用 rvest 或 BeautifulSoup 等解析库反复尝试能更快获取所需数据。当然,这也需要一定的人工检查和重试命令。对于熟悉文本处理工具的人来说,这种方法值得考虑。

这两个文本模式的网页浏览器都有 -dump 开关,可将非交互式文本输出到标准输出。它们还有各种其他开关,可以以不同方式调整文本的渲染。这两个工具的输出相似,但后续脚本需要注意细微差异。每个浏览器都能很好地将 90% 的网页以易于处理的文本形式输出。对于剩下有问题的 10%,通常其中一个工具能输出可解析的内容。在某些情况下,一个浏览器可能产生有用结果,而另一个则不能

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值