
爬虫
笔墨难染
python自动化测试
展开
-
scrapy分布式学习遇到的一个坑,暂未解决,先记录
项目需求, 使用分布式, 对某个网站进行爬取 , 然后把数据都一起传递到同一个 redis 仓库中, 使用的scrapy -redis 组件.运行环境, 本地 用虚拟机 Centos7.7 搭建了redis ,项目中新建了一个 爬虫工程,爬虫文件中, 在爬虫类中新增一个 redis_key 的属性, 进行数据解析,配置文件中, 指定管道类和配置 redis 的服务器 信息,准备执行爬虫工程, 需要去到 爬虫工程下的spiders 目录下,执行 scrapy runspider xxx原创 2020-12-28 22:17:32 · 259 阅读 · 2 评论 -
记录一个selenium和scrapy 框架一起使用出错的记录,以及解决它的方法
报错信息是 “DevTools listening on ws://127.0.0.1:56330/devtools/browser/7f4b459a-f6eb-4314-8ddc-a5e627e3457a[1152:7936:1223/203758.618:ERROR:device_event_log_impl.cc(211)] [20:37:58.618] USB: usb_device_handle_win.cc:1020 Failed to readdescriptor from node co原创 2020-12-23 21:21:42 · 6722 阅读 · 2 评论 -
记录学习scrapy 框架遇到的坑,已解决
使用的框架是爬虫框架 scrapy ,案例需求是将爬取到数据, 一份存储到本地, 一份存储到Mysql 数据库中,爬取的网站是糗事百科的段子版本,本地数据库环境 mysql5.0 ,并且在数据库里新建了满足这个案例需求的表,随后编辑pipelines.py 文件, 新增一个PileLine 类燃火在 settings.py 文件中增加这个类被调用确定在爬虫文件中, 有用 yield item出现的问题如下:那个连接数据库的管道类, 能够在open_spider方法中连接上原创 2020-12-19 10:33:04 · 319 阅读 · 3 评论