Google 以前都是分析HTML,使得我们有各种方法生成html,让爬虫得到用户看不到的内容。
在2年之前,google 采用 类似htmlunit 的技术来分析网页,就是渲染html的结果,再进行分析。
这几天发现,这个很酷。
看来,我们也需要改变策略了!
随着Google更新其网页分析技术,采用类似htmlunit的方式渲染并分析网页内容,这改变了以往仅依赖HTML的传统做法。新的策略意味着开发者们需要调整网站构建方式以确保被正确抓取。
Google 以前都是分析HTML,使得我们有各种方法生成html,让爬虫得到用户看不到的内容。
在2年之前,google 采用 类似htmlunit 的技术来分析网页,就是渲染html的结果,再进行分析。
这几天发现,这个很酷。
看来,我们也需要改变策略了!
133
425

被折叠的 条评论
为什么被折叠?