Web数据查询与模式生成技术解析
1. Web数据查询机制
在Web数据查询领域,有多种查询语言和机制,它们各有特点和局限性。
1.1 不同查询语言对比
- NetQL :它能处理页面内信息和结构相关查询,也提供了控制查询处理复杂度的方法,类似于在查询中耦合查询谓词。但它不利用析取查询条件,在Web数据的结构和内容表达能力上,相较于耦合查询有局限性。例如,它没有类似属性路径表达式的概念来对Web文档特定部分施加约束。
- ULIXES :由Araneus项目引入,用于在网站上表达和评估查询。它基于页面模式来建模网站结构,使用导航表达式来表示网站页面间的导航路径,可进行选择、投影和连接操作以选取感兴趣的数据并返回元组集。不过,与耦合查询能指定正则路径表达式不同,它只能表达无递归的简单路径表达式查询,这限制了其表达能力。而且使用它需要熟悉网站结构以生成模式,这也限制了其使用范围。另外,其查询结果会被扁平化到关系视图中,导致数据实例的拓扑结构丢失。
- XML查询语言 :如XML - QL、Lorel和YATL,专门用于XML数据查询,支持强大的查询功能,能在子页面级别操作和查询XML数据,提供数据重组功能,还能基于文档顺序进行查询。而耦合查询既能查询HTML数据,也能查询XML数据,但目前不支持数据重组功能,查询结果以Web元组集表示,不操作子页面级别的文档,也不支持基于XML文档顺序的查询。
1.2 耦合查询
耦合查询是一种将Web查询表达为特定形式的方法。它
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



