网页分析的影响因素之专业化程度

本文探讨了爬虫在不同专业化程度网站上的应用差异。对于高专业化的网站,需要深入解析JavaScript和处理复杂的页面结构;而对于较低专业化的网站,则面临不一致的HTML内容带来的挑战。

在爬虫领域的网页分析的过程中,爬虫程序的复杂度很大程度上受目标网站的专业化程度影响。

其影响主要表现在两方面:

(1)对流程确定过程的影响

在通过分析网站地图的方式去确定流程,对专业化程度不是那么高的网站而言,其网站分类、列表方式基本基本都采用链接的方式,这样在流程实现是很容易就可获取需要的链接;而对专业化程度较高的网站而言,在分类下往往通过搜索、javascript(包括AJAX)翻页的方式来陈列同类记录,这在流程实现的时候,就需要程序员去分析一些javascript函数所做的操作,去猜度相关列表方式的URL(如搜索的表单如何提交、翻页函数如何处理翻页等)。

(2)对获取详细信息过程的影响

在获取详细信息的时候,基本都是通过分心详细信息页面的结构出发的。

对专业化程度高的网站而言,详细信息页面的的制作也是投入了一些精力的,通常都规定和页面特定的位置显示特定的信息,这样就便于在分析过程中获取指定的数据。

而对专业化程度稍低的网站而言,详细页面的内容很多都是用HTML编辑器直接编辑出来的内容,在同一频道的不同分类的详细信息页面中存在着很大的差异,这使得获取详细信息部分的分析程序复杂度倍增。

 

个人的美好愿望:宁愿分析的是专业化程度高一点的站点,因为流程的确定及具体实现总是可以想到办法解决的;详细信息的分析存在太多页面结构的话,将在获取详细信息付出太大代价!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值