
笔记
driverxb
学习python,网络上知识太散,试图汇聚在一起,方便学习
展开
-
如何在windows下定时执行scrapy爬虫程序,实现定时爬取数据
准备工作:1、写一个run.bat批处理文件,最好放在与爬虫程序同一个目录如:@echo offrem 这里的D:和D:\Python 是Python文件所在的盘及路径D:cd D:\learn\ScrapyLearn\douban\douban\spiders scrapy crawl douban_spiderrem pauserem 可以执行多个任务scrapy cra...原创 2020-04-09 12:34:01 · 1727 阅读 · 0 评论 -
elasticsearch 出现“java.lang.OutOfMemoryError: Java heap space”
elasticsearch 出现“java.lang.OutOfMemoryError: Java heap space” 默认情况下,Elasticsearch JVM默认使用最小和最大大小为2 GB的堆。迁移到生产环境时,配置堆大小以确保Elasticsearch堆足够的大很重要的。Elasticsearch将通过Xms(最小堆大小)和Xmx(最大堆大小)设置分配jvm.options中...原创 2020-04-07 17:39:25 · 3439 阅读 · 0 评论 -
scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题
def parse(self, response):print(’========== parse ==========’)print(response.text[:100]) body = response.body encodings = ['utf-8', 'gbk', 'gb2312', 'iso-8859-1', 'latin1'] for encoding ...原创 2020-04-01 22:54:25 · 589 阅读 · 0 评论 -
(Scrapy)AttributeError: 'str' object has no attribute 'iter'
调试scrapy crawlspider项目时出现报错:AttributeError: ‘str’ object has no attribute 'iter’源码是:next_page = LinkExtractor(restrict_xpaths='//body/a/@href')度了一下:参考链接:https://stackoverflow.com/questions/29081...原创 2020-03-05 12:34:49 · 1288 阅读 · 1 评论 -
Gerapy 安装配置用法
Gerapy 使用Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发.Greapy安装1.gerapy下载pip install gerapygerapy 查看是否安装成功2.初始化...原创 2020-03-02 08:52:55 · 1385 阅读 · 0 评论 -
2020-02-23
曾国藩说过:“不自是,不失信,不贪财,有此三省,自然事事皆成。”原创 2020-02-23 07:46:13 · 105 阅读 · 0 评论 -
Windows下ElasticSearch安装中的问题解决
1.安装步骤下载匹配操作系统的版本(x86或x64)的java SDK(JDK)执行安装程序。下载elasticsearch-rtf(github下最新的版本)2.安装问题1:启动ElasticSearch服务提示找不到JDK或JRE,提示Could not find any executable java binary. Please install java in your PAT...原创 2020-02-21 10:18:52 · 937 阅读 · 1 评论 -
scrapy crawlspider难题,翻页链接是JS实现的,无法在rules中定义获取,如何实现翻页???
问题:翻页链接是JS实现的,无法在rules中定义获取,通过网页分析需要爬取的页面翻页规律“index_数字.html”,度了很多,均未找到理想的答案,尤其是如何结束???救急思路:只能通过修改start_urls 重载parse_start_url来预先生成urls的所有请求,再传给rules37 #重载该方法实现JS翻页无法获取翻页链接的问题 ,通过修改start_urls发出请求实...原创 2020-02-20 11:17:49 · 611 阅读 · 1 评论 -
github上进行精准搜索技巧
在github上进行精准搜索技巧:in:name xxx // 按照项目名搜索in:readme xxx // 按照README搜索in:description xxx // 按照description搜索同时可增加筛选条件stars:>xxx // stars数大于xxxforks:>3000 // forks数大于xxxlanguage:xxx // 编程语言是xxx...原创 2020-02-19 07:29:06 · 578 阅读 · 0 评论 -
2020-02-17
保持定期质疑一切原创 2020-02-17 20:56:52 · 112 阅读 · 0 评论