- 博客(14)
- 收藏
- 关注

原创 scrapy怎么post 请求payload形式的参数的实现;还有requests实现方式
payload是什么就不说了!https://mp.youkuaiyun.com/postedit/80363125一、payload在浏览器上的数据 浏览器上请求方式: 2.payload参数:可以看出来参数形式是json3.headers:4.response:可以看出来是json的数据!二、在scrapy中访问payload形式的url...
2018-05-18 13:33:00
1983

原创 向scrapy中的spider传参,实现增量
有时候需要根据项目的实际需求向spider传递参数来控制spider的运行方式。比如说,1.根据用户提交的url来控制spider爬取的网站。2.根据需求增量爬取数据。今天就写一个增量(augmenter)的方式:Spider参数通过crawl命令的 -a 选项来传递,比如:scrapycrawlxxx-aaugmenter=xxxxxx注:augmente...
2018-05-18 10:56:26
1595
2

原创 scrapy多个爬虫公用一些中间件、pipelines
使用python3请求头headers:user-agent、代理ip,这些放在一个工程项目里,有的爬虫是需要中间件的或者根据反爬添加相应的条件,那这样的情况下怎么办?1.中间件处理默认带上请求头,不带启用ip代理功能spiders文件夹下的爬虫类添加属性中间件处理这样不管爬虫那边有没有添加属性,middlewares里就是会默认2.有些情况下请求头会带上cookie...
2018-04-20 18:32:27
2801
原创 DolphinScheduler 2.0.x版本在win10开发调试的环境配置
最近用DolphinScheduler搭建平台,有些不好的地方需要二开,记录一下本地环境配置DolphinScheduler官网地址:https://dolphinscheduler.apache.org/zh-cn/(平台部署也有坑,后续更新。。。)1.下载DolphinScheduler源码打开 DolphinScheduler 的 GitHub(https://github.com/apache/dolphinscheduler)选择下载的版本,可以clone或者直接下载zip包
2022-04-29 14:04:11
3136
原创 python3调用jenkins报401未授权问题
ubuntu 16.04系统安装的包python-jenkins,用的是目前最新的1.7.0(1.5~1.6页试过):import jenkinsserver = jenkins.Jenkins(JENKINS_MIMETUS_SERVER_URL, username=JENKINS_MIMETUS_USERNAME, password=JENKINS_MIMETUS_PASSWORD)# 调用方法server.get_running_builds()# 报错:Traceback
2021-06-18 16:07:30
3605
1
原创 爬虫之遇到521,破解cookie之window对象
使用python、scrapyimport execjs# 安装pip install PyExecJS 用这种方式只是为了调试,实际使用中还是要用js引擎v8看了不少博客是要用到模拟浏览器phantomjs、chrome什么的,其实有很多网站的js会发现这种操作(无头模式下navigatoe.webdriver为true,绕过检测要设置该属性)。下面一个网站为例(具体网站不公开!...
2019-03-31 22:49:51
747
转载 pip install出错:Cannot connect to proxy
pip install出错:Cannot connect to proxyCannot connect to proxy.', NewConnectionError('<pip._vendor.urllib3.connection.VerifiedHTTPSConnection object at 0x03111CF0>: Failed to establish a new co...
2019-03-31 22:02:59
1115
转载 Scrapy如何获取返回的headers里面的多个Set-Cookie
https://blog.youkuaiyun.com/legendary_Dragon/article/details/81287593 cookie = response.headers.getlist('Set-Cookie')
2018-11-28 15:26:41
2078
原创 虚拟机Ubuntu16.04 Server设置NAT方式修改ip
每次都要查看ip,每次都不一样,往往我们会选择“NAT模式”,但是选择的时候,ip地址会产生冲突,这样我们就要修改我们的IP地址来解决!!一、简单方式:1.工具栏‘编辑’ 2.虚拟网络编辑器,选择NAT模式==》子网ip没法修改 3.‘更改设置’“子网IP”修改自己喜欢的网段,192.168.xxx.xxx最好是改这两个!4.‘DHCP设置’修改起始IP地址==》可以说这样就是自己的虚拟机的IP...
2018-04-20 17:18:04
754
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人