目标:爬取腾讯视频(三生三世十里桃花电视剧)热评
链接:https://v.qq.com/detail/j/j6cgzhtkuonf6te.html
因为f12源代码无法找到关于热评信息的代码,推测是存储在js文件,只能抓包获取
左键查看更多(触发网络请求)
查找对应的js文件,解码并对比热评
完全一致,开始研究网页规律,并校验
发现网页的reqnum字段的值是评论个数
增大这个值相当于按查看更多
开始写代码
- 构造用户代理池爬取网页,根据热评个数reqnum构造网址
- 网页源代码中abstract对应热评,title对应热评标题
- 采用正则表达式提取并打印
- 最后加上异常处理
效果图
源代码
import urllib.request
import re
num=