
Scrapy
weixin_43343144
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【重磅推荐】Windows10下安装爬虫框架scrapy(走过的坑总结-切记不能直接pipenv install scrapy 这样肯定失败各种错误!)
温馨提示:Scrapy安装更新说明(2019.4.14日安装)所以直接运行命令安装成功(Twisted是自动安装,而且已经最新!)// 直接安装(如果有出错请参考文章后面部分)pip install Scrapy3// (必须安装)如果没安装会报错:builtins.ModuleNotFoundError: No module named 'win32api'pip install ...原创 2019-02-22 17:47:51 · 1006 阅读 · 0 评论 -
【重磅推荐】Python爬虫框架之Scrapy命令总结+spiders【爬虫】+items【对象】+middlewares【中间件】+pipelines【管道】
Scrapy常见命令总结:// 创建一个scrapy模板项目scrapy startproject myproject// 创建一个爬虫文件【必须在myproject/myproject/spiders目录执行命令】scrapy genspider spiderName mydomain.com// 运行爬虫【spiderName这边必须是爬虫文件类中的name属性值,默...原创 2019-04-14 10:53:28 · 492 阅读 · 0 评论 -
[【重磅推荐】Scrapy爬虫框架如何重写FilesPipeline或ImagesPipeline的(file_path方法)下载文件或图片自定义文件名
一:文件下载的配置文件: setting.py文件配置选项文件下载保存路径(重写了FilesPipeline默认输出路径:file_dir)FILES_STORE = 'download'ITEM_PIPELINES = { 文件的FilesPipeline必须设置为1,最先执行! 'scrapy_first.pipelines.MyFilesPipeline': 1...原创 2019-02-24 21:59:49 · 4009 阅读 · 0 评论 -
Scrapy爬虫框架之单页面和多页面数据交互的spider操作方法
Request对象参考文档:https://docs.scrapy.org/en/latest/topics/request-response.html原创 2019-02-24 17:15:49 · 747 阅读 · 0 评论 -
基于scrapy爬虫框架的应用案例之一:百度阅读(无登录爬虫)
基于python的Scrapy框架做爬虫确实简单(别人造好的轮子,我们来组装即可) 无需登录的items.py模块from scrapy import Item,Fieldclass BookItem(Item): title = Field() price = Field() tags = Field() author = Field()...原创 2019-02-24 17:06:37 · 421 阅读 · 0 评论 -
【重磅推荐】scrapy框架之链接提取LinkExtractor对象的使用(这里有一个很大的坑,新手都会犯的一个错误)
官方文档(LinkExtractor参数细节):https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/link-extractors.html LinkExtractor参数大全:allow:接收一个正则表达式或一个正则表达式列表,提取绝对url于正则表达式匹配的链接,如果该参数为空,默认全部提取。deny:接收一个正则表达式或一个正...原创 2019-02-24 11:30:15 · 3217 阅读 · 1 评论 -
【重磅推荐】Scrapy爬虫框架出现Forbidden by robots.txt(scrapy默认是不爬虫设置了robots.txt文件的,所以要配置一下)
参考文章:https://blog.youkuaiyun.com/zzk1995/article/details/51628205 方法一:设置ROBOTSTXT_OBEY = False,这种不推荐(非万不得已),强行爬虫容易封ipscrapy框架这个属性设置为False即可(默认为True)ROBOTSTXT_OBEY = False 第二种方法就是不改变 ROBOTS...原创 2019-02-23 22:18:30 · 793 阅读 · 0 评论 -
Scrapy框架原理分析
参考文档:http://www.runoob.com/w3cnote/scrapy-detail.html原创 2019-02-23 21:20:00 · 214 阅读 · 0 评论 -
Scrapy框架之Feed exports输出路径及文件格式配置:
项目名scrapy_first/settings.py配置文件导出的路径当前目录下的export_data文件下FEED_URI = "export_data/%(name)s_%(time)s.json"输出文件的格式类型(JSON、CSV、XML)FEED_FORMAT = "json"输出文本编码格式(json默认格式不是utf-8)FEED_EXPORT_ENCODI...原创 2019-02-23 21:18:37 · 1301 阅读 · 0 评论 -
scrapy框架之pipelines模块总结和注意事项
项目目录scrapy_first/settings.py配置文件设置scrapy_first/pipelines.py文件下实现pipeline类 实现Pipeline模块主要是实现四个方法!class BookFilterPipeline: def __init__(self, count): self.count = count (必...原创 2019-02-23 20:11:49 · 980 阅读 · 0 评论 -
Scrapy框架之selector.css()函数的语法规则(和css选择器语法一致)
css官方手册:http://www.w3school.com.cn/cssref/css_selectors.asp原创 2019-02-23 15:56:16 · 758 阅读 · 0 评论 -
Scrapy框架之selecter.xpath()函数的语法总结
Xpath(XML的语法规则)语法规则官方手册:http://www.w3school.com.cn/xpath/xpath_syntax.asp具体用法总结:(函数部分参考xml手册) html = ''' <div> <ul> <li class="toctree-l1"><a ...原创 2019-02-23 15:25:24 · 846 阅读 · 0 评论 -
Scrapy框架中selector.css方法和selector.xpath方法,如何获取标签属性(含text文本)的三种方法(scrapy1.6版本)
text = '''<ul> <li class="toctree-l1"><a class="reference internal" href="intro/overview.html">Scrapy at a glance</a></li> <li原创 2019-02-23 11:48:42 · 2578 阅读 · 0 评论 -
【重磅推荐】python爬虫框架Scrapy的项目初始化和爬虫模块初始化的注意事项(务必跟着这个套路来,否则乱七八糟的问题都会出来!)
慎重提醒:命令创建好环境之后,不要轻易去修改系统创建好的文件名,否则会引发很多错误! 创建一个成功的Scrapy3爬虫项目结构的步骤:第一步:创建好pipenv虚拟环境目录!第二步:在当前目录下,使用命令:scrapy startproject project_name【项目名】第三步:进入spiders目录执行命令:scrapy genspider<name> ...原创 2019-02-22 23:53:05 · 390 阅读 · 0 评论 -
【重磅推荐】在Pycharm中调试scrapy爬虫的两种方法(有坑,务必注意)
第二种方式:参考链接:https://www.jianshu.com/p/6f7cf38d5792 pycharm调试scrapy常用的命令配置:scrapy crawl <scrapy_name> (scrapy_name不是文件名,而是Spider的属性name的值)scrapy runspider scrapy_first/spider/book.py第一种模...原创 2019-02-22 21:48:09 · 1241 阅读 · 0 评论 -
【爬虫重磅】Python+Scrapy+Selenium爬取京东【动态js页面加载】案例【比splash更加容易操作的动态js加载方法】
参考案例:https://www.cnblogs.com/cnkai/p/7570116.html第一部分:实现爬虫类和初始化Selenium火狐浏览器对象scrapy_selenium_jd.py爬虫文件# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Request,Responsefrom ...原创 2019-04-23 23:44:26 · 1379 阅读 · 0 评论