基于知识的电商购物比较图表生成器
1. 引言
在电商购物中,大多数销售特定类型产品的网店存在一些问题。这些网店通常只提供有限的品牌和产品型号,其设计受零售商影响,主要目标是尽可能多地向访问者销售产品。这导致它们对产品的展示有固定模式,更注重价格,而对产品特性的完整呈现不够重视,也不鼓励进行产品的横向比较。而且,在展示产品时,它们往往只强调少数优势特性,而忽略劣势。虽然这些网店对最终购买交易有价值,但无法满足那些对可选择产品没有清晰了解的潜在买家的需求。
为了了解产品的详细信息,买家通常会浏览产品品牌网站上的详细规格页面。然而,由于市场上有众多品牌和型号,浏览大量规格页面非常耗时。此外,比较不同型号的产品只能手动进行,如在纸上记录或复制粘贴到电子表格中,即使是经验丰富的网络用户也会觉得这项工作负担过重。
因此,需要一种软件工具,能够轻松地从各种已知网站收集产品规格信息,创建比较购物图表。这不是信息检索任务,而是信息提取任务。网络搜索引擎可以帮助定位信息资源,但无法处理这些资源、提取特征 - 值对并将信息整合到一个比较表格中。
近年来,研究人员提出了多种网页信息提取方法和工具,其中“包装器(wrapper)”是该领域的关键概念。包装器是一种映射,用于将网页中的隐式对象填充到数据存储库中。创建包装器通常需要进行训练(包装器归纳),使其能够识别所需信息。与依赖特定领域知识和语义、句法约束的自然语言处理(NLP)技术不同,包装器归纳主要关注所需信息周围的特征(分隔符),通常是 HTML 标签。此外,提取特定类型的信息(如地址、电话号码、价格等)通常会大量使用正则表达式。
包装器归纳主要有两个研究方向:
- 线性方法
超级会员免费看
订阅专栏 解锁全文
1064

被折叠的 条评论
为什么被折叠?



