
python爬虫学习
LCYong_
这个作者很懒,什么都没留下…
展开
-
爬虫学习笔记三、对网页unicode编码转化为中文
解决 社会这种编码转换为中文的问题解决思路:1、处理字符串,采用截取字符串的办法,提取出34567位,如社 截取793;2、处理截取的字符串 转化为'\u'+第一步截取的字符串,转化二进制3、调用bytes对象的decode('unicode_escape'),二进制转义解码为中文strs='乱码的部分'原创 2016-11-21 21:22:05 · 3773 阅读 · 0 评论 -
解决ValueError('Missing scheme in request url: %s' % self._url)
使用scrapy的ImagesPipeline爬取图片的时候,运行报错Traceback (most recent call last): File "/home/lcy/.local/lib/python2.7/site-packages/twisted/internet/defer.py", line 653, in _runCallbacks current.result =原创 2017-06-04 13:20:56 · 20085 阅读 · 2 评论 -
反反爬虫------设置scrapy随机user_agents
在我们使用爬虫的时候,总会遇到一些网站规则,限制我们去爬取,其中一个就行限制浏览器请求头我们可以设置一个user_agent的列表,然后随机抽取其中的一个作为浏览器请求头,这样每次访问网站就可以使用不同的浏览器请求头了在setting设置中,添加以下代码USER_AGENT_LIST=[ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWeb原创 2017-06-03 21:09:44 · 3263 阅读 · 0 评论 -
爬虫学习笔记四、 python爬虫实战,爬取图书馆资料,存储到mysql数据库
以图书馆为例,用Python写爬虫原创 2016-11-21 21:23:50 · 7100 阅读 · 1 评论 -
scrapy+spynner获取ajax中的内容(以微信公众号为例)
现在越来越多的网站的使用ajax来动态加载数据,scrapy只能获取静态html中的数据,对于动态加载的就无能为力了spynner是一个模拟浏览器加载的工具,可以在后台模拟ajax加载后的网页,然后再通过scrapy进行爬取原理就是在scrapy的中间件设置spynner模块加载微信公众号里面的内容,文字可以直接加载出来,但是图片使用的是ajax技术,如果我们成功获取到了图片的src则原创 2017-06-07 22:34:51 · 2566 阅读 · 0 评论 -
src/png_io.c:3:17: fatal error: png.h
安装spynner的时候报错找了好半天才找到这个文件的位置sudo apt-get install libpng16-dev原创 2017-06-07 21:59:56 · 587 阅读 · 0 评论 -
apt-file好厉害的解决了安装依赖问题
今天安装spynner的时候,一直报错一直报错,各种依赖没有被安装,搞了好半天,每一个依赖都得搜一遍到底缺那个文件,麻烦得要命后来发现了这么个厉害的东西可以很好的解决各种文件缺失安装#sudo apt-get install apt-file更新apt-file update现在就可以使用了 apt-file search '缺少的文件名'原创 2017-06-07 21:45:32 · 4293 阅读 · 0 评论 -
爬虫学习笔记一、 python3.4爬虫爬取百度贴吧图片
使用python爬取百度贴吧图片原创 2016-11-21 21:11:15 · 1061 阅读 · 1 评论 -
爬虫学习笔记二、 python3.4连接mysql数据库
在python3.4版本中不支持python2.X中的MySQLdb,需要导入pymysql包,不要安装错了。1、CMD下输入pip install pymysql 导入pymysql包2、测试代码如下:实现查询功能:import pymysql try: #获取数据库连接 conn=pymysql.conn原创 2016-11-21 21:16:25 · 2820 阅读 · 1 评论 -
Python3+selenium+PhantomJS+scrapy获取B站排行版Ajax动态爬虫
1 安装需要的依赖pip install seleniumpip install scrapypip install pymysqlPhantomJS下载地址: http://phantomjs.org/download.html2 创建scrapy项目scrapy startproject bilibilicd bilibiliscrapy genspide原创 2018-01-16 18:32:17 · 1057 阅读 · 0 评论