爬虫
Urila
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
windows下无法连接ubantu下的linux的mongo_由于计算机积极拒绝,无法连接
问题描述:在ubantu下mongoDB查询已经插入的两条数据是没有问题,但是在windows下使用Pycharm连接失败:ubantu:windows下使用pymongodb连接,代码如下:from pymongo import *client = MongoClient(host="localhost", port=27017)db = client.test001 ...原创 2018-12-14 19:26:59 · 696 阅读 · 1 评论 -
python_fake_useragent_随机请求头模块
fake_useragent_随机请求头模块当我们在对目标url进行数据采集的时候,难免会遇到反爬,比如说一定时间内你的ip访问量过多的时候,你在请求url,就给你一个反馈,告诉你你的请求次数太频繁,请稍后再试,无法正常的进行数据采集,那么我们可以伪造请求头和ip来对目标url进行访问,这里先介绍请求头。1.安装方法一:在cmd命令行中进行安装,pip install fake_use...原创 2019-01-08 21:22:32 · 1790 阅读 · 0 评论 -
scrapy_crawlspider_TypeError: dict expected at most 1 arguments, got 6
问题描述:在使用scrapy的CrawlSpider框架进行网络爬虫的时候,spider文件中已定义好了items文件的类的实例化对象来进行返回,但是在执行该爬虫的时候报错,如下:2019-01-11 23:23:50 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.jianshu.com/...原创 2019-01-11 23:47:12 · 5024 阅读 · 2 评论 -
js混淆解密_谷歌镜像的url分析
参考(万分感谢):http://blog.icxun.cn/Python/438.html刚开始学习爬虫,遇到了一个js加密的网站,技术不够,很无奈,开始了学习js加密解密的路,一个简单的加密网站作为demo。开始: 目标网址:http://ac.scmor.com/想爬取红框内部的url,首先进行分析F12开发者模式,发现a标签的onclick触发了一个visit()函数...原创 2018-12-18 23:07:17 · 1126 阅读 · 0 评论 -
Javascript 混淆后解码原理
0x00 前言Javascript 作为一种运行在客户端的脚本语言,其源代码对用户来说是完全可见的。但不是每一个 js 开发者都希望自己的代码能被直接阅读,比如恶意软件的制造者们。为了增加代码分析的难度,混淆(obfuscate)工具被应用到了许多恶意软件(如 0day 挂马、跨站攻击等)当中。分析人员为了掀开恶意软件的面纱,首先就得对脚本进行反混淆(deobfuscate)处理。本文将介...转载 2018-12-18 19:47:34 · 4433 阅读 · 0 评论 -
python_scrapy_TypeError: 'LuboavSpider' object is not iterable问题及解决
问题描述:在使用scrapy进行网络爬虫的时候,在pipelines处理结果,并保存到db中的时候出现了TypeError: 'LuboavSpider' object is not iterable错误# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipelin...原创 2018-12-23 22:07:55 · 1888 阅读 · 0 评论 -
Python_PyQuery模块打开本地文件报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xa0 in position 84
问题描述:在使用pyquery.PyQuery打开本地文件的时候,会报错,不是安装的问题,报错如下UnicodeDecodeError: 'gbk' codec can't decode byte 0xa0 in position 84: illegal multibyte sequence'gbk'编解码器无法解码位置84的0xa0字节:非法多字节序列代码如下:from pyq...原创 2018-12-12 09:50:08 · 3992 阅读 · 0 评论 -
python_windows下PySpider敲的代码在哪里?以及如何重新执行已经完成的爬虫项目
问题描述:使用PySpider进行爬虫,已经执行完代码,项目的进度已经完成,显示百分之百,由于修改了代码,想重新执行,但是一直显示爬虫项目已经完成。原因分析:当你在执行完爬虫的项目的时候,系统会将你的执行信息在本地进行存放,再次执行的时候会先看你的执行信息,如果已经完成,系统则会显示已经完成,不会真正的再一次进行爬虫。解决:所以我们要找到本地存放PySpider相关文件的路径,进行...原创 2018-12-22 17:34:06 · 911 阅读 · 0 评论 -
scrapy_TypeError: Object of type 'QiubaiItem' is not JSON serializable
问题描述:使用scrapy对糗事百科进行爬虫的时,在spider文件中返回在items文件的实例化对象,然后在管道文件进行磁盘持久化的时候,想将从spider文件传过来的数据通过json转换成字符串然后在写入文件,结果报错Traceback (most recent call last): File "e:\anaconda3\lib\site-packages\twisted\in...原创 2018-12-27 23:48:33 · 651 阅读 · 0 评论 -
使用ip代理池爬虫时,requests模块get请求出现问题_AttributeError: 'str' object has no attribute 'get'
问题描述:项目使用ip代理池对网页进行数据爬取,但是requests模块get方法出现问题,出错如下: File "E:\project\venv\lib\site-packages\requests\api.py", line 75, in get return request('get', url, params=params, **kwargs) File "E:\pro...原创 2018-12-17 12:51:33 · 9058 阅读 · 0 评论 -
scrapy_系统设置_settings.py
设置Scrapy设置允许您自定义所有Scrapy组件的行为,包括核心,扩展,管道和爬虫本身。设置的基础结构提供了键值映射的全局命名空间,代码可以使用它从中提取配置值。可以通过不同的机制来填充设置,这将在下面描述。这些设置也是选择当前活动Scrapy项目的机制(如果您有很多)。有关可用内置设置的列表,请参阅:内置设置参考。指定设置当你使用Scrapy,你必须告诉它你使用哪些设...原创 2018-12-27 16:51:52 · 531 阅读 · 0 评论 -
网络代理的基本原理
我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封...转载 2018-12-10 18:55:41 · 15755 阅读 · 2 评论 -
为何大量网站不能抓取?爬虫突破封禁的6种常见方法
为何大量网站不能抓取?爬虫突破封禁的6种常见方法在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 ...转载 2018-12-16 16:46:52 · 3152 阅读 · 0 评论 -
scrapy_ [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to ’XXXX‘
问题描述:在使用scrapy框架进行爬虫时,当解析完请求start_urls的响应进行二次访问的时候,出现了无法访问的情况,系统过滤 了我的请求 .# -*- coding: utf-8 -*-import scrapyclass LuboavSpider(scrapy.Spider): name = 'photo' allowed_domains = ['htt...原创 2018-12-27 00:17:15 · 1083 阅读 · 0 评论 -
python_scrapy_twisted.web.error.SchemeNotSupported: Unsupported scheme: b''_及解决
问题描述:在使用scrapy框架的middleware中间件,去尝试使用代理,执行后就会报错2018-12-26 00:39:30 [scrapy.core.scraper] ERROR: Error downloading <GET http://httpbinorg/get/>Traceback (most recent call last): File "e:\ana...原创 2018-12-26 19:49:11 · 5991 阅读 · 1 评论 -
scrapy_写入csv文件_'gbk' codec can't encode character '\xa0' in position 148: illegal multibyte sequence
问题描述:使用scrapy进行爬虫的时候,将文本写入到csv文件时候报错原因分析:‘\xa0’ 在Unicode编码中是空格 但使用gbk进行编码的时候就或报错解决方案string.replace(u'\xa0', u' ')参考:https://blog.youkuaiyun.com/jianhong1990/article/details/8061...原创 2019-03-29 20:09:12 · 623 阅读 · 2 评论
分享