爬虫-爬取豆瓣短评
啥是爬虫?
按照一定的规则,自动地抓取互联网信息的程序。
为啥要用爬虫?
可以利用爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在采集回来的信息中进行检索
怎么用爬虫?
爬虫分为三个部分
1、解析网页
2、提取信息
3、保存信息
接下来将会用requests库来实现一个简单地爬虫
爬取豆瓣短评
首先我们需要安装requests库
我们可以cmd指令进入python解释器,然后输入pip install requests然后等待安装。
同样我们也可以打开pycharm在Terminal中输入相同的指令
安装比较慢的同学可以修改下载源也可以下载
链接:解决pip下载慢
提取码:9b7d
来解决
安装好了我们就可以来使用requests库的功能了
首先我们访问豆瓣250选择自己感兴趣的电影这里我们选择了《肖申克的救赎》
打开全部短评