
网络爬虫
文章平均质量分 70
W-大泡泡
这个作者很懒,什么都没留下…
展开
-
搜狗微信公众号抓取
由于搜狗的反爬原因,不能直接对搜狗上面检索结果进行抓取,首先应先对操作进行抓包分析: 一、抓包分析: 1、搜狗微信公众号检索界面: 2、抓包获取对应的HTTP Referer: HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器藉此可以获得一些信息用于处理。比如从我主页上链接到一个朋友那里原创 2016-10-08 18:06:16 · 5736 阅读 · 1 评论 -
HTTP状态码(HTTP Status Code)
HTTP状态码(HTTP Status Code) 是当我们访问网页服务器,服务器做出相应的状态的3位数的数字代码。主要包括“1xx”(消息)、“2xx”(成功)、“3xx”(重定向)、“4xx”(请求错误)和“5xx”或“6xx”(服务器错误)五种不同类型。比较常见的状态码有: HTTP: Status 200 – 服务器成功返回网页 HTTP: Status 404 – 请求的网页不存在原创 2016-12-14 15:28:17 · 10362 阅读 · 0 评论 -
获取新榜微信公众号指数信息,并服务器上部署
一、分析: 新榜地址:这里写链接内容 接口发现: http://www.newrank.cn/xdnphb/data/weixinuser/searchWeixinDataByCondition 请求方式:post表单数据: - filter: - hasDeal:false - keyName:汽车 - order:NRI - nonce:8f44b75a9 - xy原创 2016-09-28 11:21:03 · 6859 阅读 · 2 评论