前言
之前自己接触到一个网站:哈哩哈哩,对没错,就是和B站如此相似。。。
这个网站里也有许多的资源,包括很多的电影,动漫等等(似乎有广告之嫌。。。)。但是苦于电影太多,而且很多电影都没有听过,就萌生了一个想法:写一个爬虫,获取部分电影名称,然后再自动去豆瓣获取评分,最后根据评分来看高分电影
1 获取电影名称
按照常规操作走的话,第一步就是再chrome中F12查看页面内容,但是不晓得这个网站做了什么操作,当我按下F12后,整个页面就空白了。就像下面的图片中一样,只能说这个操作很有趣
但是,这种简单的事情能难倒我吗?不存在的!
在页面中鼠标右键查看网页源码之后,再将源码保存到本地。下面的就是对源码格式化之后的内容了,当然这里只显示出一小部分,因为源码有太多行了。。。
那么就下来就是使用python爬虫的包来解析这个网页了
这里博主主要使用了requests
和BeautifulSoup
两个库,主要代码如下:
# 获取网页内容
r = requests.get(url)
# 编码
r.encoding = r.apparent_encoding
# 解析
soup = BeautifulSoup(r.text, 'lxml')
# 获取网页中所有电影名称
lists = soup.find_all(name='div', attrs='info')
2 获取评分
在获取了电影名称列表之后,下一步自然就是去豆瓣获取评分了,
这一步,博主选择了使用豆瓣提供的接口获取电影评分,
# 下url为豆瓣提供的接口,以电影‘狂怒’示例
url = 'https://api.douban.com/v2/movie/search?q=' + '狂怒'
# 获取网页内容
r = requests.get