异步通信与文档聚类相关技术研究
异步通信导向的页面搜索
在网络通信技术不断发展的今天,传统的客户端/服务器 Web 应用模型及其相关的 N 层框架结构,对 Web 应用的限制日益明显。传统 Web 模型采用同步通信,客户端每次发送请求后都需等待服务器响应,这极大地影响了用户效率和体验。同时,其全页面刷新机制会导致大量服务器数据回传,增加网络延迟和负载,造成网络通信资源的浪费。
为解决这些问题,以 Ajax 为代表的异步通信模型应运而生。异步通信模型具有诸多优势:
- 异步通信:用户向服务器请求数据时,Ajax 引擎同步传输,用户无需等待服务器响应即可继续页面操作,服务器响应后,Ajax 会自动刷新页面显示结果。
- 按需提取数据:由于是同步请求,在相关数据发送前,模板文件、导航列表和页面布局等内容已随初始页面发送到浏览器,减少了冗余请求,减轻了服务器负担,降低了数据下载总量。
- 部分刷新:仅刷新必要部分,提升了用户体验。
- 增强客户端功能,减轻服务器负担。
然而,异步通信技术的应用对传统搜索引擎提出了巨大挑战:
- 多数标签失去 HREF 属性,基于超链接分析的传统直接提取 HREF 属性的网页抓取技术失效。
- 提取完整准确的 URL 并确保有序且不重复访问变得困难,因为在采用异步通信技术的网站中,访问网页时无法获取所有 URL 列表,URL 是在函数发送时提取的。
- 异步通信技术采用部分刷新,传统搜索引擎以 URL 为主键将服务器响应内容存储在数据库中的机制不再适用。
异步通信导向的页面爬虫系统结构
采用异步通信技术的网页中,大量 URL 隐藏在脚本代码区域
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



