
爬虫学习
文章平均质量分 66
小菜0-o
卷心菜,又卷又菜
展开
-
BeautifulSoup解析爬取三国演义文章
【代码】BeautifulSoup解析爬取三国演义文章。原创 2023-10-05 15:34:28 · 166 阅读 · 0 评论 -
爬虫项目实战——爬取B站视频
目标:对B站视频详情页url进行视频的爬取。注:由于B站的音频和视频的链接是分开的,所以在提取是需要分别提取,然后进行合成。这里只管提取,合成的工作以后再说。原创 2023-10-05 11:19:45 · 9224 阅读 · 4 评论 -
中间件——爬取网易新闻内容
如果我发起的url是我需要发起的url,那就对响应数据进行拦截,然后将用selenium得到的响应数据进行作为response返回,达到以假乱真的效果。由于每一个新闻板块的ur里面的新闻标题都是动态加载出来的,所以需要使用selenium才能得到动态加载出的数据。在爬虫文件wangyi.py中,在类中初始化时,初始化一个浏览器对象,这样可以保证这个浏览器对象只产生了一次。那么我如何判断我当前发起的url是否是我需要发起selenium动态加载数据的url呢?同时也要重写父类的关闭操作,将浏览器关闭。原创 2023-10-04 09:58:20 · 874 阅读 · 0 评论 -
使用CrawlSpider爬取全站数据。
CrawlSpider使用基于规则的方式来定义如何跟踪链接和提取数据。它支持定义规则来自动跟踪链接,并可以根据链接的特征来确定如何爬取和提取数据。CrawlSpider可以对多个页面进行同样的操作,所以可以爬取全站的数据。CrawlSpider可以使用LinkExtractor用正则表达式自动提取链接,而不需要手动编写链接提取代码。Spider和CrawlSpider都是Scrapy的Spider类的子类。原创 2023-10-04 09:39:33 · 309 阅读 · 0 评论 -
scrapy爬取图片
使用scrapy爬取图片,采用管道方法进行下载。原创 2023-10-01 15:28:48 · 806 阅读 · 1 评论 -
请求传参.
使用场景:如果爬取解析的数据不在同一张页面中。在Boss网站中,岗位的名称和关于岗位的描述是不在一个页面的。所以我们需要的信息在不同的页面中,所以要用到请求传参。请求传参的方法页不难。在boss.py文件的parse函数中,最后一行为:在Request中callback回调为另外一个处理岗位详情页的函数。添加参数meta字典,封装已经写好部分数据的item到另外一个函数parse_detail中。然后再在这个函数parse_detail中处理我们需要的另一个数据。原创 2023-09-30 16:39:56 · 145 阅读 · 0 评论 -
基于Spider的全站数据爬取
一开始运行的时候会出来很多其他的日志信息,这里我忘了设置settings.py中。原创 2023-09-29 18:02:47 · 432 阅读 · 0 评论 -
8章:scrapy框架
高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式。原创 2023-09-29 16:43:09 · 605 阅读 · 0 评论 -
python爬虫基于管道持久化存储操作
找到项目目录下的items.py文件,在里面定义相关的属性# 在item类中定义相关的属性安装mysql安装navicat这里需要安装mysql,我还另外安装了navicat。安装好mysql之后,要新建连接,按照步骤操作即可。这里需要mysql库。这个库是用来对数据库进行远程连接的,所以必须要有打开的数据库,打开的表才可以。如何使用navicat新建数据库& 新建表建立好之后,再按照上面的6步按部就班来就可以。原创 2023-09-29 16:28:50 · 1461 阅读 · 0 评论 -
7章:动态加载数据处理(selenium)
基于浏览器自动化的一个模块。原创 2023-09-18 23:00:25 · 591 阅读 · 0 评论 -
多线程爬取pear video
global i。原创 2023-09-17 10:30:28 · 189 阅读 · 0 评论 -
爬虫笔记_
爬虫在使用场景中的分类。原创 2023-09-17 09:34:56 · 1610 阅读 · 0 评论