Web数据提取技术与应用
1. 数据提取的挑战
在Web数据提取过程中,存在着诸多挑战,这些挑战主要可以分为以下四个类别:
1.1 法律挑战
虽然互联网上的信息大多是公开的,但公司自动提取并用于商业目的的权利存在争议。例如,20世纪90年代末,拍卖公司eBay起诉“拍卖聚合商”公司AuctionWatch.com,称其非法从eBay网站获取拍卖数据并重新发布在自己的网站上,普通用户并不知道数据来源,且避开了eBay想展示的广告,最终该诉讼庭外和解。
此外,还有Robot Exclusion Standard(RES),网站所有者通过在网站上放置“robots.txt”文件,告知哪些爬虫可以访问网站以及哪些部分禁止访问。不过,实际上大多数网站并未利用该标准保护自己,因此对爬虫开放。
1.2 语义挑战
将不同来源的数据集整合在一起,很可能会遇到不兼容或冲突的模式和词汇。不同来源描述产品特征的术语、度量单位和产品识别信息(SKU编号)可能不同。
例如,同一产品通过不同渠道销售时,产品型号可能不同,导致从这些渠道网站提取的产品数据虽有重叠但难以整合。要比较不同渠道的产品价格,需要明确不同渠道产品型号的映射关系,或具备分析产品描述以确定产品“身份”的能力。这些语义问题若处理不当,会导致信息缺失、冲突和冗余。
1.3 设计挑战
- 交互性增强 :网站越来越多地采用编程技术提高交互性,如在网页中嵌入脚本验证用户表单输入。这虽提高了网站易用性,但使爬虫访问数据更困难。例如,访问产品目录需要提交查询,爬虫需知道输入什么查
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



