
爬虫
文章平均质量分 52
诗雅颂
大道不过两三行,说破不值一文钱!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何自动采集QQ群的共享文件
功能简介因为所加入的QQ群比较多,所以想到用程序来自动采集QQ群共享文件的元数据并自动下载,项目所使用python版本:3.6.8,python3环境下应该都不是问题。依赖项redispymysqlseleniumrequests模块介绍config.py 配置文件db.py 封装了redis部分操作cookieqzone.py ...原创 2020-02-28 18:06:18 · 5817 阅读 · 5 评论 -
Cannot establish TLS with client: TlsException("SSL handshake error")
mitmproxy & python - ignore all hosts with https/sslPC端安装mitmproxy,生成证书,并在手机端安装android证书,然后设置手机ip代理,仍然报错,错误如下图找了两天终于在stackoverflow找到了解决办法。转载自> https://stackoverflow.com/questions/53309111/mi...原创 2018-12-13 17:20:42 · 13369 阅读 · 17 评论 -
Scrapyd制作Docker镜像的步骤
分布式主要通过scrapyd⼯工具来部署,scrapyd是⼀一个运⾏行行Scrapy爬⾍虫的服务程序,它提供⼀一 系列列HTTP接⼝口来帮助我们部署、启动、停⽌止、删除爬⾍虫程序。Scrapyd⽀支持版本管理理,同时可以管理理多个爬⾍虫任务,利利⽤用它我们可以⾮非常⽅方便便地完成 Scrapy爬⾍虫项⽬目的部署任务调度。如果同时将⼀一个Scrapy项⽬目部署到100台服务器器上,我们需要⼿手 动...原创 2018-12-13 17:50:46 · 642 阅读 · 1 评论 -
爬虫分布式会自动对请求队列去重,那么如何对start_urls去重
背景描述最新做的一个项目是要求爬取国外网站Twitter、Instagram、Youtube等等相关产品的评论,然后分析过滤出负面评论,依据最后的分析结果,可以做到提前发现问题、预防问题、解决或改善问题!爬取思路因为在一级页面里是拿不到我们想要的数据的,必须要进到二级页面,所以设计思路是,拿到一级页面的URL,再进行二级页面的数据抓取,两者可以同时进行。问题是,爬取一级页面的URL的时候,是...原创 2018-12-20 09:11:49 · 2771 阅读 · 0 评论 -
App模拟爬取Android APP时启动报错
An unknown error while processing the command. Original error: activity and pkg are required to start我这种报错情况是因为电脑开启了代理,把代理关了就OK了,不是什么大问题,强迫自己养成记录问题的好习惯...原创 2018-12-17 09:36:56 · 588 阅读 · 0 评论 -
COPY failed: stat /var/lib/docker/tmp/docker-builder633327200/etc/scrapyd/scrapyd.conf: no such file
错误描述:将scrapyd.conf配置文件打包到docker镜像的/etc/scrapyd/目录下错误原因:我在Dockerfile文件中用的COPY命令如下:COPY /etc/scrapyd/scrapyd.conf /etc/scrapyd/解决方法:将本地/etc/scrapyd/scrapyd.conf拷贝到和Dockerfile同目录,就不会报错了...原创 2018-12-22 12:42:51 · 7389 阅读 · 2 评论 -
无法通过公网IP访问windows下Scrapyd
Windows环境下:一般无法通过公网IP访问scrapyd服务,无非是配置文件没有将bind_address修改为0.0.0.0,或者防火墙没有配置6800端口。我在微软云上创建了两个云主机实例:一个W10,一个Win Srv2012,W10在防火墙规则里加上6800端口,然后安装scrapyd服务,配置文件的bind_address修改为0.0.0.0,启动scrapyd就可在外网通过公网...原创 2019-01-15 11:13:23 · 796 阅读 · 0 评论 -
builtins.AttributeError: 'int' object has no attribute 'splitlines'
欢喜结局的故事原创 2019-05-23 10:51:08 · 3856 阅读 · 4 评论 -
macOS Mojave Version 10.14.6登陆Docker失败
mac下无法登陆Docker失败问题描述解决思路问题描述在做爬虫项目时,需要用到代理池,想法是把获取代理的Python项目打包成Docker镜像,然后执行以下命令docker login报错信息如下Authenticating with existing credentials...Login did not succeed, error: Error response from d...原创 2019-07-30 21:03:10 · 1756 阅读 · 0 评论