
Python:爬虫学习
喜欢海呀
这个作者很懒,什么都没留下…
展开
-
Python爬虫学习:我的第一个爬虫—爬取贴吧感兴趣帖子的图片(大家都懂,哈哈)
喜欢逛贴吧的小伙伴,在看到帖子里边有自己想要的图片的时候(特别是多图的那种),如果一张一张的按“另存为”,浪费时间不说,还特别麻烦,所以福利来啦~由于本博客只是用来记录学习,所以没有写多少说明解释的文字描述,只是添加了必要的注释。代码如下:```# -*- coding:utf-8 -*-from urllib import requestimport charde...原创 2017-09-26 11:32:10 · 1181 阅读 · 0 评论 -
python爬虫学习1
爬虫爬虫概览什么是爬虫生活角度:spider-projection(爬虫程序)互联网爬虫:一个程序,根据url爬取网页,获取有用信息核心:爬取网页 + 解析数据难点:爬虫与反爬虫之间的博弈爬虫语言php:多进程和多线程支持不好java:python爬虫的主要竞争对手,但是代码量大,重构成本高,而爬虫需要经常修改,所以不适合c/c++:学习成本比较...原创 2018-03-19 16:40:48 · 463 阅读 · 0 评论 -
scrapy爬取数据之后,如何存入mysql
pipelines.py文件中新建MySQLPipeline类:# 导入库from scrapy.utils.project import get_project_settingsimport pymysql# 写入数据库class MySQLPipeline(object): def connect_db(self): # 从settings.py文件中导入...原创 2018-03-29 17:48:06 · 2030 阅读 · 2 评论 -
scrapy分布式爬虫
scrapy_redis scrapy是一个通用的爬虫框架,但是不支持分布式,scrapy_redis是为了更方便的实现scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。scrapy_redis工作原理:调度器将不再负责Url的调度,而是将url上传给scrapy_redis组件,由组件负责组织、去重redis组件会通过指纹(key)来进行去重操作...原创 2018-03-29 20:31:45 · 2094 阅读 · 0 评论 -
scrapy中使用CrawlSpider,匹配不到urls
scrapy中使用CrawlSpider,匹配不到urls,并且报如下错误:[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.xinpianchang.com': <GET h原因是allowed_domains设置的有问题,注释掉以后就可以了(或者修改为正确的域名)...原创 2018-03-30 17:13:09 · 1086 阅读 · 0 评论 -
scrapy爬取豆瓣电影
刚看了scrapy框架,就想写个小项目练练手,刚好最近的一个django项目缺少电影推荐的信息,自然就想到了去爬取豆瓣电影的数据,爬取的url是https://movie.douban.com/top250新建项目命令: scrapy startproject doubanMovie进入项目目录下,新建一个爬虫文件: scrapy genspider movie movie.d...原创 2018-03-27 22:30:13 · 1077 阅读 · 0 评论