
python爬虫数据分析
文章平均质量分 85
此专栏记录学习爬虫与数据分析的过程
胜天半月子
这个作者很懒,什么都没留下…
展开
-
Spider | 使用requests模块来爬取微博评论数据
a.可以直接通过reqeusts模块get方法请求。b.额外构建查询参数,请求时候携带查询参数即可。GET请求查询参数(是直接在链接中就有)模拟浏览器对url发送请求。使用开发者工具中的参数内容。获取服务器返回的响应数据。原创 2024-10-31 12:15:50 · 581 阅读 · 0 评论 -
Scrapy | 通过爬取豆瓣Top250电影信息来学习在中间件中应用随机请求头和代理ip
网页分析代码记得在settings.py设置User-Agent和ROBOTSTXT_OBEY,否则会报403错误# items.pypassyield itemnexturl = response.xpath('//span[@class="next"]/a/@href').get() #没有 a 则到最后一页提取的是Nnoeif nexturl!= None:url=url结果。原创 2024-10-21 13:58:40 · 1166 阅读 · 0 评论 -
Scrapy | 爬取笑话网来认识继承自Spider的crawlspider爬虫类
CrawlSpider 提供了一种更高级的方法来定义爬取规则,而无需编写大量的重复代码。它基于规则系统工作,其中每个规则由一个或多个链接提取器(LinkExtractor)和一个回调函数(callback)组成。规则定义了要提取的链接和如何处理这些链接的方法。callback=‘parse_item’ 不同于spider爬虫类 callback参数 不是。原创 2024-10-20 11:30:26 · 690 阅读 · 0 评论 -
Scrapy | Scrapy框架中管道的使用
在Scrapy中,爬虫管道(Item Pipeline)是用于处理Spider提取的数据的一系列组件。它们的主要职责是清洗、验证和存储爬取的数据。请记住,管道的主要目的是处理Spider提取的数据。因此,确保你的管道逻辑专注于数据清洗、验证和存储。在某些情况下,你可能需要在管道中区分不同的爬虫,以便对不同的爬虫使用不同的处理逻辑。是一个字典,键是管道的路径,值是它们的优先级(数字越小,优先级越高。原创 2024-10-19 21:03:03 · 542 阅读 · 0 评论 -
Scrapy | 通过模拟登录功能认识cookies参数及start_requests函数实现发送POST请求
当用户登录网站时,服务器会在用户的浏览器上设置一个 cookie,该 cookie 在用户的浏览器上存储一个唯一的会话标识符。在后续的请求中,浏览器会自动发送这个cookie,服务器可以使用它来识别用户的会话。追踪用户行为:cookies 可用于追踪用户的浏览行为,这有助于网站分析用户行为,优化用户体验,或用于广告定位。工作方式:通常在表单中包含一个隐藏的输入字段,或者在 AJAX 请求中作为请求头发送。注意:scrapy…2.找到请求体的规律:分析post请求的请求体,其中包含的参数均在前一次的响应中。原创 2024-10-19 18:47:14 · 997 阅读 · 0 评论 -
Scrapy | 爬取网易招聘信息来认识start_urls是POST请求时如何重写start_requests方法以及翻页问题的处理
吧取网易招聘信息来认识start urls,是POST请求时如何重写start requests方法以及翻页问题的处理原创 2024-10-17 13:18:31 · 1805 阅读 · 0 评论 -
Scrapy | POST方式中formdata 和 payload 的区别
通常指的是 JSON 或其他编码的数据,这在发送 API 请求时更为常见。在 Scrapy 中,如果你想要发送 JSON 数据,你应该使用。在 Scrapy 中,你应该根据需要发送的数据类型选择合适的请求类型。通常与 JSON 数据和 API 请求相关,而。以下是使用 Scrapy 发送 JSON。是用来处理表单提交的,它通常用于发送。发送数据,你应该使用表单数据(,具体取决于是否包含文件上传。} # JSON 数据。在 Scrapy 框架中,原创 2024-10-16 22:23:24 · 377 阅读 · 0 评论 -
Scrapy | 使用Scrapy进行数据建模和请求
1.创建项目scrapy startproject项目名2.明确目标在items.py文件中进行建模3.创建爬虫3.1创建爬虫scrapy genspider 【爬虫名】 【允许的域】3.2完成爬虫修改start_urls检查修改allowed domains编写解析方法4.保存数据在pipelines . py文件中定义对数据处理的管道在settings . py文件中注册启用管道。原创 2024-10-16 19:54:40 · 604 阅读 · 0 评论 -
Scrapy | 通过爬取传智教育老师的信息来加深scrapy的入门及使用
1.定义一个管道类2.重写管道类的process_item方法3.process_item方法处理完item之后必须返回给引擎。原创 2024-10-16 14:51:27 · 1126 阅读 · 0 评论 -
Scrapy | 手动请求发送实现的数据爬取-段子王网站
手动请求发送实现爬虫数据获取,涉及回调函数原创 2024-08-09 15:10:40 · 372 阅读 · 0 评论 -
scrapy|请求传参实现的深度爬取-meta参数
通过scrapy.Request中的meta参数进行参数item的传递实现持久化存储原创 2024-08-09 12:52:26 · 466 阅读 · 0 评论 -
2024年python安装scrapy运行测试代码出现LookupError: unknown encoding: ‘b‘utf8‘‘的解决办法
LookupError: unknown encoding: 'b'utf8'' 出错的解决办法原创 2024-08-08 21:40:15 · 1727 阅读 · 3 评论 -
python爬虫--scrapy框架的学习和使用(七)⭐---第二部分
文章目录九、CrawlSpider⭐⭐⭐实战项目问题总结十、分布式爬虫十一、总结九、CrawlSpider⭐⭐⭐是一个类,基于Spider的子类。子类继承父类所有的功能,并能派生出自己的功能! 用于全栈数据的爬取基于Spider:手动请求基于CrawlSpider使用流程创建工程(同以前不变)cd XXX创建爬虫文件(CrawlSpider):scrapy genspider -t crawl xxx www.xxx.com【scrapy genspid原创 2021-10-13 22:13:34 · 470 阅读 · 2 评论 -
python爬虫--scrapy框架的学习和使用(七)⭐⭐⭐---第一部分
文章目录前言一、scrapy框架的基本使用1.1 windows下安装scrapy1.2 scrapy的基本使用二、scrapy数据解析总结前言什么是框架?就是一个集成了很多功能并且具有很强通用性的一个项目模板。如何学习框架?专门学习框架封装的各种功能的详细用法。什么是scrapy?爬虫中封装好的一个明星框架。功能:高性能的持久化操作异步的数据下载操作高性能的数据解析操作分布式操作一、scrapy框架的基本使用环境安装linux和mac操原创 2021-10-13 16:38:39 · 6312 阅读 · 5 评论 -
python爬虫--selenium的理解以及使用(六)
文章目录前言一、selenium简介二、使用步骤1.引入库2.读入数据总结前言关于一个页面是否是动态加载(Aajax)数据的判断方法⭐⭐动态加载数据意味着直接对网址进行请求是无法直接拿到页面数据的,我们可以通过网页上的抓包工具定位到network对网页进行请求,并查看网页上的某个数据是否在network请求页面加载的数据页中步骤详解动态加载的数据是如何来的?一、selenium简介selenium模块和爬虫之间具有怎样的关联?便捷的获取网站中动态加载的数据边原创 2021-10-09 09:43:38 · 10517 阅读 · 6 评论 -
Python爬虫--高性能的异步爬虫(五)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录一、异步爬虫概述二、线程池的基本使用总结一、异步爬虫概述高性能异步爬虫 :在爬虫中使用异步实现高性能的数据爬取操作传统爬取数据的操作是顺序操作,下面看一个实例代码分析上述代码可知 for循环中的get方法会阻塞程序,只有请求到的数据获取后,才可以进行下一条url中对应的数据上述可知,使用异步会提高爬虫程序的数据获取效率异步爬虫的方式多线程,多进程好处:可以为相关阻塞的操作单独开启线原创 2021-09-28 19:47:48 · 1267 阅读 · 4 评论 -
Python爬虫--人人网模拟登录cookie(四)
文章目录模拟登录一、pandas是什么?二、使用步骤1.引入库2.读入数据总结欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入模拟登录爬取基于某些用户的用户信息需求: 对人人网原创 2021-09-25 12:48:50 · 651 阅读 · 0 评论 -
Python爬虫之网站验证码识别(三)
文章目录前言一、云打码平台使用流程1.1 使用流程1.2 使用超人云平台1.3 实战演练总结前言验证码和爬虫之间的爱恨情仇?门户网站所提供的一种反爬机制:验证码应用场景爬取基于用户的相关信息时,我们需要在爬取数据之前做登录的操作:浏览器中进行登录操作很简单只需要输入相关信息后点击登录即可用requests模块登陆操作时,可能需要提交验证码如何做识别验证码图片中的数据,用于模拟登陆操作:人工肉眼识别(不推荐)有些验证码干扰线少,肉眼可以识别清楚,而有些肉眼原创 2021-06-01 15:21:17 · 496 阅读 · 1 评论 -
Python爬虫之数据解析/提取(二)
文章目录前言数据分析分类数据解析原理概述一、正则进行数据解析二、使用步骤1.引入库2.读入数据总结 正则findall()方法的使用前言爬虫在使用场景中的分类通用爬虫抓取系统重要组成部分。抓取的是一整张页面数据聚焦爬虫⭐是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。增量式爬虫⭐检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。数据分析分类正则bs4xpath⭐数据解析原理概述聚焦爬虫编码流程:指定url发起请求获取响应数原创 2021-04-22 20:30:05 · 2512 阅读 · 5 评论 -
JSON的学习使用
文章目录笔记来源一、使用 json 保存结构化数据二、基本使用2.1 基础讲解2.2 实例引入⭐总结笔记来源菜鸟教程:Python JSONPython json 模块dumps、dump、loads、load的使用官方文档:7.2.2. 使用 json 保存结构化数据json — JSON 编码和解码器一、使用 json 保存结构化数据json 标准模块采用 Python 数据层次结构,并将之转换为字符串表示形式的过程称为 serializing (序列化原创 2021-04-21 21:06:58 · 399 阅读 · 2 评论 -
⭐模式匹配与正则表达式
文章目录前言一、普通方法查找文本二、使用步骤1.引入库2.读入数据总结前言一直想找个机会好好的学习正则表达式的基础知识,现在随着学习和复习Python有关知识遇到了正则表达式,在此记录,以便日后复习使用。正则表达式的主要应用是网络爬虫,日后学习爬虫遇到新的感悟体会会不断加入到这篇博客。一、普通方法查找文本保存isPhoneNumber.py:在字符串中查找电话号码。例如:415-555-4242# 不用正则表达式来查找文本模式def isPhoneNumber(text): i原创 2021-03-31 18:31:53 · 499 阅读 · 3 评论 -
爬虫入门概念与硬核实战巩固(一)
文章目录前言一、爬虫是什么?1.1 robots.txt1.2 http1.3 https二、request模块2.1 网络请求requests2.1.1 实战---ruquests第一血2.读入数据总结前言你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源…你是否在节假日出行高峰的时候,想快速抢购火车票成功…你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品…一、爬虫是什么?通过编写程序、模拟浏览器上网,然后让其模拟浏览器去上网,然后让其去互联网上抓取数原创 2021-04-19 17:38:38 · 975 阅读 · 0 评论