爬虫批量获取电影名称及电影评分

本文讲述了如何利用Python爬虫从哈哩哈哩网站获取电影名称,并通过豆瓣API获取电影评分,同时讨论了在遇到接口访问限制时如何解决,以及为何选择使用接口而非直接爬取网页数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

之前自己接触到一个网站:哈哩哈哩,对没错,就是和B站如此相似。。。

这个网站里也有许多的资源,包括很多的电影,动漫等等(似乎有广告之嫌。。。)。但是苦于电影太多,而且很多电影都没有听过,就萌生了一个想法:写一个爬虫,获取部分电影名称,然后再自动去豆瓣获取评分,最后根据评分来看高分电影

1 获取电影名称

按照常规操作走的话,第一步就是再chrome中F12查看页面内容,但是不晓得这个网站做了什么操作,当我按下F12后,整个页面就空白了。就像下面的图片中一样,只能说这个操作很有趣

在这里插入图片描述

在这里插入图片描述

但是,这种简单的事情能难倒我吗?不存在的!

在页面中鼠标右键查看网页源码之后,再将源码保存到本地。下面的就是对源码格式化之后的内容了,当然这里只显示出一小部分,因为源码有太多行了。。。

在这里插入图片描述

那么就下来就是使用python爬虫的包来解析这个网页了

这里博主主要使用了requestsBeautifulSoup两个库,主要代码如下:

# 获取网页内容
r = requests.get(url)
# 编码
r.encoding = r.apparent_encoding
# 解析
soup = BeautifulSoup(r.text, 'lxml')
# 获取网页中所有电影名称
lists = soup.find_all(name='div', attrs='info')

2 获取评分

在获取了电影名称列表之后,下一步自然就是去豆瓣获取评分了,

这一步,博主选择了使用豆瓣提供的接口获取电影评分,

# 下url为豆瓣提供的接口,以电影‘狂怒’示例
url = 'https://api.douban.com/v2/movie/search?q=' + '狂怒'
# 获取网页内容
r = requests.get
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值