网页数据仓库系统:架构、挑战与解决方案
1 传统工具处理网页数据的局限性
1.1 搜索引擎的不足
搜索引擎在处理网页数据时存在明显局限。网页信息不断变化,搜索引擎索引数据更新后很快可能过时,还会遇到“404错误”。而且,搜索引擎不存储历史数据,无法进行需要访问网页数据先前快照的计算。因此,搜索引擎不是将网页数据转化为有用信息的理想工具。
1.2 传统数据仓库的局限性
传统数据仓库是管理信息系统的演进,在许多行业成功应用,用于收集信息进行深入分析和预测未来。然而,用传统数据仓库技术分析网页数据存在严重局限:
- 网页数据翻译难题 :传统数据仓库借助包装器将信息源数据转换为仓库使用的格式和数据模型。但网页数据翻译很繁琐,因为每个网站内容和结构不同,需要为每个相关网站生成包装器组件,且网站内容和结构变化时,包装器组件需修改。所以,需要新的仓库数据建模技术,支持以网页数据的原生格式存储。
- 数据模型的刚性 :传统数据仓库通常采用多维数据模型,适用于有明确数值度量和维度的数据。但网页数据是半结构化、不规则的,很难确定用于分析的数值度量和描述维度的属性。此外,不同网站数据内容和结构不同,缺乏共同属性,导致多维模型不适合建模网页数据。传统数据仓库也可基于关系型OLAP服务器实现,采用星型或雪花型模式,但网页数据结构多变,新数据插入可能使模式不一致或不完整,限制了传统模式对网页数据的表示。
- 操作的刚性 :多维数据模型中的典型OLAP操作,如汇总、钻取、切片和旋转等,适用于销售、时间、预算等数据。但网页数据包含文本、音频、
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



