在采集了那么多次数据之后,我感觉爬虫是有一个特定框架的
所以我用昨天爬上海旅游景点的爬虫框架爬取了漫威电影---复仇者联盟4:终局之战的短评去验证我的猜测
网址奉上:https://movie.douban.com/subject/26100958/comments?start=20&limit=20&sort=new_score&status=P
注意网址中每次翻页变动的都是在start=?这里,每往后翻一页?处都翻倍,所以下面代码中的网址里才会有(i*20)
所以说在爬网页的时候要注意看每个网页网址的变化
下面是本次爬虫所用的代码:
这里我采集了100条数据
我把采集到的结果转化成数据框的格式,预览前5行看看