72、Web数据提取技术与应用

Web数据提取技术与应用

1. 数据提取的挑战

在Web数据提取过程中,存在着诸多挑战,这些挑战主要可以分为以下四个类别:

1.1 法律挑战

虽然互联网上的信息大多是公开的,但公司自动提取并用于商业目的的权利存在争议。例如,20世纪90年代末,拍卖公司eBay起诉“拍卖聚合商”公司AuctionWatch.com,称其非法从eBay网站获取拍卖数据并重新发布在自己的网站上,普通用户并不知道数据来源,且避开了eBay想展示的广告,最终该诉讼庭外和解。

此外,还有Robot Exclusion Standard(RES),网站所有者通过在网站上放置“robots.txt”文件,告知哪些爬虫可以访问网站以及哪些部分禁止访问。不过,实际上大多数网站并未利用该标准保护自己,因此对爬虫开放。

1.2 语义挑战

将不同来源的数据集整合在一起,很可能会遇到不兼容或冲突的模式和词汇。不同来源描述产品特征的术语、度量单位和产品识别信息(SKU编号)可能不同。

例如,同一产品通过不同渠道销售时,产品型号可能不同,导致从这些渠道网站提取的产品数据虽有重叠但难以整合。要比较不同渠道的产品价格,需要明确不同渠道产品型号的映射关系,或具备分析产品描述以确定产品“身份”的能力。这些语义问题若处理不当,会导致信息缺失、冲突和冗余。

1.3 设计挑战

  • 交互性增强 :网站越来越多地采用编程技术提高交互性,如在网页中嵌入脚本验证用户表单输入。这虽提高了网站易用性,但使爬虫访问数据更困难。例如,访问产品目录需要提交查询,爬虫需知道输入什么查
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值