爬虫问题
文章平均质量分 69
Urila
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python_Scrapy_执行文件不生成json文件和TypeError: write() argument must be str, not bytes错误及解决
使用刚安装好的scrapy做第一个案例遇到了一堆bug,代码如下:pipelines.pyitem.py我的爬虫文件:test_itcast.py1.实行代码的时候,scrapy crawl test_itcast,实行结果如下:(venv) E:\Scrapy\test1\test1>scrapy crawl test_itcast2018-1...原创 2018-12-08 16:56:05 · 1931 阅读 · 0 评论 -
scrapy_由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。错误及解决
问题描述:在使用scrapy的middleware使用ip代理的时候,也给代理添加了"https://"或者"http://", 但还是报错了(之前还是好好的)报错如下:2019-01-05 21:46:44 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://httpbin.org/ip> (...原创 2019-01-05 22:07:11 · 25918 阅读 · 2 评论 -
scrapy_crawlspider_TypeError: dict expected at most 1 arguments, got 6
问题描述:在使用scrapy的CrawlSpider框架进行网络爬虫的时候,spider文件中已定义好了items文件的类的实例化对象来进行返回,但是在执行该爬虫的时候报错,如下:2019-01-11 23:23:50 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.jianshu.com/...原创 2019-01-11 23:47:12 · 5025 阅读 · 2 评论 -
scrapy_pymysql.err.IntegrityError: (1062, "Duplicate entry '1' for key 'PRIMARY'")
问题描述:python:3.6ubantu:5.4.0-6ubuntu1~16.04.4 在使用scrapy为框架,将采集到的数据使用pymysql保存到虚拟机中的时候,数据采集没有问题,但是在插入的时候出现了问题,报错如下:Traceback (most recent call last): File "e:\anaconda3\lib\site-packages\twi...原创 2019-01-12 15:28:15 · 11010 阅读 · 2 评论 -
scrapy_File "src/lxml/etree.pyx", line 1589, in lxml.etree._Element.xpath (src\lxml\etree.c:61238)
问题描述:在使用scrapy框架进行数据采集的时候,是能进行数据抓取的,但是相隔一段时间后,在使用xpath后报错,如下:Traceback (most recent call last): File "e:\anaconda3\lib\site-packages\parsel\selector.py", line 238, in xpath **kwargs) File...原创 2019-01-18 08:59:33 · 6281 阅读 · 2 评论 -
scrapy_TypeError: Cannot convert unicode body - HtmlResponse has no encoding
问题描述:在使用middleware进的时候,计划是在scrapy发送请求的时候对其进行拦截,然后自己使用HtmlResponse伪造一个response响应进行返回,传给scrapy调度器。但是,在使用HtmlResponse实例化对象的是时候报错,如下:Traceback (most recent call last): File "e:\anaconda3\lib\site-...原创 2019-01-14 16:15:38 · 1145 阅读 · 0 评论 -
scrapy_在linux环境下部署scrapy分布式
分布式爬虫linux部署环境步骤1. (以下为linux环境下进行)Scrapy的安装有多种方式,它支持Python2.7版本及以上或Python3.3版本及以上,scrapy的依赖库比较多执行如下命令安装依赖库:sudo apt-get install build-essential python3-dev libxml2-dev python3-pip libxslt1-dev z...原创 2019-01-20 21:57:15 · 629 阅读 · 0 评论 -
scrapy_分布式_ERROR: Caught exception reading instance data_Unable to read instance data, giving up
问题描述:将已经写好的scrapy分布式项目部署到linux环境中后执行spider.py文件报错,如下2019-01-20 23:05:08 [boto] ERROR: Caught exception reading instance dataTraceback (most recent call last): File "/usr/lib/python2.7/dist-pac...原创 2019-01-20 23:47:54 · 589 阅读 · 0 评论 -
scrapy_写入csv文件_'gbk' codec can't encode character '\xa0' in position 148: illegal multibyte sequence
问题描述:使用scrapy进行爬虫的时候,将文本写入到csv文件时候报错原因分析:‘\xa0’ 在Unicode编码中是空格 但使用gbk进行编码的时候就或报错解决方案string.replace(u'\xa0', u' ')参考:https://blog.youkuaiyun.com/jianhong1990/article/details/8061...原创 2019-03-29 20:09:12 · 624 阅读 · 2 评论 -
reqiests_SyntaxError: Non-UTF-8 code starting with '\xe5' in file
问题描述:在使用requests模块发送请求,在解析想用的使用报错如下SyntaxError: Non-UTF-8 code starting with '\xe5' in file F:/project/python_test2.py on line 102, but no encoding declared; see http://python.org/dev/peps/pep-02...原创 2019-04-25 19:33:22 · 5140 阅读 · 0 评论 -
scrapy_代理ip报错twisted.web.error.SchemeNotSupported: Unsupported scheme: b''
问题描述:在使用scrapy框架进行网络爬虫的时候,是没有问题的,我在DOWNLOADER_MIDDLEWARES中间件中添加了代理ip后,就开始报错,报错如下:Traceback (most recent call last): File "F:\scrapy\venv\lib\site-packages\twisted\internet\defer.py", line 1416,...原创 2019-04-24 15:01:41 · 879 阅读 · 0 评论 -
appium_An element could not be located on the page using the given search parameters.
问题描述:使用find_element_by_xpath的时候报错,如下Traceback (most recent call last): File "F:/project/appiumTest/weChart/moments.py", line 158, in <module> moments.smallexe() File "F:/project/ap...原创 2019-05-05 17:20:05 · 14566 阅读 · 3 评论 -
打开fiddler,使用requests请求时报错requests.exceptions.SSLError: HTTPSConnectionPool
问题描述:使用fiddler进行抓包后,fiddler不关闭,使用pycharm进行url访问,报错,如下:Traceback (most recent call last): File "F:\project\venv\lib\site-packages\urllib3\connectionpool.py", line 594, in urlopen self._prepa...原创 2019-05-06 17:00:15 · 15372 阅读 · 11 评论 -
scrapy_Atwisted.web.error.SchemeNotSupported: Unsupported scheme: b''错误及解决
问题描述:在middleware中使用ip代理的时候,报错如下2019-01-05 21:16:15 [scrapy.core.scraper] ERROR: Error downloading <GET http://httpbin.org/ip>Traceback (most recent call last): File "e:\anaconda3\lib\sit...原创 2019-01-05 21:26:33 · 3432 阅读 · 0 评论 -
python_base64_binascii.Error: Incorrect padding解决
问题描述:在使用b64decode对加密后的文件进行解密的时候报错,如下:Traceback (most recent call last): File "E:/project/allow/zt/xx01_xyz.py", line 13, in <module> result = b64decode("aHR0cCUzQSUyRiUyRnZpZGVvLnlqZj...原创 2019-01-05 11:57:45 · 38748 阅读 · 6 评论 -
Python爬虫urlopen编码问题及解决方案
问题描述:在爬取百度贴吧的内容时候,一次只爬取一页的时候,没有问题,但是使用for i in range 一次爬取多个页面的时候出现以下问题代码如下,红框内代码报错:字符拼接没有问题,两次输出就是相同https://tieba.baidu.com/f?kw=诗词吧&ie=utf-8&pn=200https://tieba.baidu.com/f?kw=诗...原创 2018-12-03 20:38:28 · 2557 阅读 · 0 评论 -
Python_TypeError: string indices must be integers
问题描述:在使用Scrapy进行爬虫时候,在Spider中的py文件中想对服务器的响应进行获取数据并进行处理,但是就出现了如下错误TypeError: string indices must be integers 原因分析:从头开始分析,也就是刚进入spider文件的时候,直接打印reponse.body,查看其值print(json.loads(response.bo...原创 2018-12-10 09:54:39 · 4174 阅读 · 0 评论 -
Python_TypeError: Object of type 'DouyuZiItem' is not JSON serializable错误及解决
问题描述:在使用Scrapy进行爬虫时候,在管道文件中想对Spider文件返回的item进行磁盘持久化,但是运行就出现了如下错误Traceback (most recent call last): File "e:\anaconda3\lib\site-packages\twisted\internet\defer.py", line 654, in _runCallbacks ...原创 2018-12-10 10:16:34 · 1371 阅读 · 0 评论 -
python_scrapy_twisted.web.error.SchemeNotSupported: Unsupported scheme: b''_及解决
问题描述:在使用scrapy框架的middleware中间件,去尝试使用代理,执行后就会报错2018-12-26 00:39:30 [scrapy.core.scraper] ERROR: Error downloading <GET http://httpbinorg/get/>Traceback (most recent call last): File "e:\ana...原创 2018-12-26 19:49:11 · 5991 阅读 · 1 评论 -
scrapy_AttributeError: 'generator' object has no attribute 'meta'''_'generator' 'dont_filter'
问题描述:初次使用craapy中间件的时候,重写了process_exception方法,目的是反复去调用,但是报错了,如下:2018-12-26 20:50:57 [scrapy.utils.signal] ERROR: Error caught on signal handler: <bound method RefererMiddleware.request_scheduled ...原创 2018-12-26 20:59:13 · 4647 阅读 · 2 评论 -
scrapy_ [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to ’XXXX‘
问题描述:在使用scrapy框架进行爬虫时,当解析完请求start_urls的响应进行二次访问的时候,出现了无法访问的情况,系统过滤 了我的请求 .# -*- coding: utf-8 -*-import scrapyclass LuboavSpider(scrapy.Spider): name = 'photo' allowed_domains = ['htt...原创 2018-12-27 00:17:15 · 1083 阅读 · 0 评论 -
为何大量网站不能抓取?爬虫突破封禁的6种常见方法
为何大量网站不能抓取?爬虫突破封禁的6种常见方法在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 ...转载 2018-12-16 16:46:52 · 3153 阅读 · 0 评论 -
使用ip代理池爬虫时,requests模块get请求出现问题_AttributeError: 'str' object has no attribute 'get'
问题描述:项目使用ip代理池对网页进行数据爬取,但是requests模块get方法出现问题,出错如下: File "E:\project\venv\lib\site-packages\requests\api.py", line 75, in get return request('get', url, params=params, **kwargs) File "E:\pro...原创 2018-12-17 12:51:33 · 9058 阅读 · 0 评论 -
scrapy_TypeError: Object of type 'QiubaiItem' is not JSON serializable
问题描述:使用scrapy对糗事百科进行爬虫的时,在spider文件中返回在items文件的实例化对象,然后在管道文件进行磁盘持久化的时候,想将从spider文件传过来的数据通过json转换成字符串然后在写入文件,结果报错Traceback (most recent call last): File "e:\anaconda3\lib\site-packages\twisted\in...原创 2018-12-27 23:48:33 · 651 阅读 · 0 评论 -
python_windows下PySpider敲的代码在哪里?以及如何重新执行已经完成的爬虫项目
问题描述:使用PySpider进行爬虫,已经执行完代码,项目的进度已经完成,显示百分之百,由于修改了代码,想重新执行,但是一直显示爬虫项目已经完成。原因分析:当你在执行完爬虫的项目的时候,系统会将你的执行信息在本地进行存放,再次执行的时候会先看你的执行信息,如果已经完成,系统则会显示已经完成,不会真正的再一次进行爬虫。解决:所以我们要找到本地存放PySpider相关文件的路径,进行...原创 2018-12-22 17:34:06 · 911 阅读 · 0 评论 -
python_scrapy_TypeError: 'LuboavSpider' object is not iterable问题及解决
问题描述:在使用scrapy进行网络爬虫的时候,在pipelines处理结果,并保存到db中的时候出现了TypeError: 'LuboavSpider' object is not iterable错误# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipelin...原创 2018-12-23 22:07:55 · 1889 阅读 · 0 评论 -
scrapy_AttributeError: type object 'ImagesPipeline' has no attribute 'startswith'错误及解决
问题描述:在使用scrapy进行爬虫的时候,启用前没有问题,启用管道后就出现了问题。报错如下:AttributeError: type object 'ImagesPipeline' has no attribute 'startswith'无法在python中的SCRAPY中创建对'str'对象的弱引用spider文件代码如下:# -*- coding: utf-8 ...原创 2019-01-05 09:32:14 · 2401 阅读 · 0 评论 -
requests_报错_TypeError: 'Response' object is not subscriptable
问题描述:这几天使用resquests测试一个系统的时候犯了一个很低级的错误,特此来记录下,我使用requests对接口进行访问,response返回的结果格式是json,我使用json转换为json格式后获取data的时候报错,如下:json格式返回:报错:原因分析:严重事务,我还没有转为json格式旧先获取了。当然报错了。出现这个错误的原因是当前变量无法使用下标...原创 2019-09-12 11:38:36 · 13834 阅读 · 1 评论
分享