Web数据提取技术与应用
1. XSL模板的输出优势
使用XSL进行模板设计的一个显著优势是其灵活的输出机制。一旦编写好提取模式,就能够轻松调整输出,以满足后端系统的需求。所需的输出格式可以是XML、逗号分隔值、SQL命令或其他格式。
2. 从HTML中提取XML数据
2.1 HTML的发展与现状
从20世纪90年代初诞生到几年前,HTML语言一直在不断发展,引入了越来越复杂的设计元素,如嵌套表格、框架和图像映射等早期元素,后来又增加了客户端脚本,包括对鼠标事件的处理,这提高了网站的交互性,使其更像真实的应用程序。
近年来,HTML的构成趋于稳定,Web开发者将重点转向了更具程序性的Web标准,如XML和Web服务。如今,HTML作为一种语言不再发展,除了不同浏览器支持的HTML功能存在不兼容性外,可以说HTML本身以及相关的开发和设计工具已经成熟,并能产生一致的输出。
2.2 HTML设计范式的可预测性
基于上述发展,我们有理由认为网站中的某些设计范式是使用一致且可预测的HTML结构编程实现的。例如,除了复杂的图形和客户端脚本,在网页上创建下拉菜单只有一种方法,即使用 <select> 和 <option> 标签。同样,文本输入框、单选按钮和复选框也使用一套成熟的HTML标签来定义。我们可以利用这种一致性,在创建提取模式时提高模式的鲁棒性。
2.3 页面布局带来的挑战
尽管某些HTML功能具有可预测性,但页面布局这一数据提取中最关键的页面设计方面仍存在固有不确定
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



