
爬虫
黑鸦log
内有洪荒之力
展开
-
spiderkeeper API 使用
1.简介spiderkeeper是一款开源的spider管理工具,可以方便的进行爬虫的启动,暂停,定时,同时可以查看分布式情况下所有爬虫日志,查看爬虫执行情况等功能。2.安装详见https://blog.youkuaiyun.com/m0_38106113/article/details/81812135注意:crapyd spiderkeeper 都必须在项目的根目录下运行3.APIspiderkeeper可以通过http的API进行操控,官方给了一个文档及调试页面,在运行spiderkeeprt后,原创 2020-08-04 16:52:50 · 346 阅读 · 0 评论 -
python Request如何构造post中的request payload
通常post自带的参数以Form data形式提交,但也有一些是以request payload提交的,所以在构造post时有些许不同1.修改Header中的Content-TypeForm data的Content-Type是 application/x-www-form-urlencoded (默认)而request payload的Content-Type是application/js...原创 2019-02-18 16:52:52 · 5658 阅读 · 1 评论 -
c# HttpWebRequest 的 Referer 被置空的问题
近日,在使用使用HttpWebRequest的抓取一个页面的数据时,莫名返回的结果总是401,被禁止访问,而使用python的requests构造一摸一样的头文件却能够正常访问。经调试,发现当执行Web_Request.GetResponse()后,HttpWebRequest内的referer被设置为null了。referer的作用是用于标明访问此页面时,来源页面的地址是什么。而refere...原创 2019-03-22 16:42:38 · 2789 阅读 · 1 评论