说一些小技巧,分享给需要在互联网上,找数据,然后接收的。
往往一个网页上面呈现的内容,来源有很多个,浏览器会根据脚本的调用,访问很多个服务器地址,所以我们要抓取数据,最好知道数据的源头, 直接从源头获取再进行解析。
比如我用的chrome浏览器,火狐也更好。
1.右击页面,从菜单中选择“审查元素”;
2.选择Network,功能栏,然后再F5,就可以看到整个页面内容的数据来源。
3.可以通过,选择文件类型分类来找到你要的数据源,看一下Response是否包含你要的内容,或者其他方法自己探索一下。
4.找到了之后,看看Header里面的RequestURL,访问一下。
5.有些涉及参数设置的检索,可以看看搜索的脚本代码,以实用url的方式去获取检索内容。
这个经验非常常用有效,分享给大家。
本文介绍了一种在互联网上高效抓取网页数据的方法,通过使用Chrome浏览器的审查元素功能及Network面板来定位数据源,进一步解析所需内容。适用于需要从网页抓取数据的人员。
942

被折叠的 条评论
为什么被折叠?



