- 博客(3)
- 收藏
- 关注
原创 腾讯视频热评爬虫(fiddler抓包js文件)
目标:爬取腾讯视频(三生三世十里桃花电视剧)热评链接:https://v.qq.com/detail/j/j6cgzhtkuonf6te.html因为f12源代码无法找到关于热评信息的代码,推测是存储在js文件,只能抓包获取左键查看更多(触发网络请求)查找对应的js文件,解码并对比热评完全一致,开始研究网页规律,并校验发现网页的reqnum字段的值是评论个数增大这个值相当于...
2019-11-15 21:41:44
1300
原创 scrapy爬取当当网商品信息
目标:利用scrapy框架爬取多页当当网商品标题,链接和评论数信息并保存在本地数据库中首先创建爬虫项目和爬虫模板文件爬取商品标题商品链接商品评论创建容器容纳他们查看网页源代码,找到规律通过ddname定位a标签a标签下的title属性的值是商品标题href属性是链接文本是评论数开始网址设置为第一页设置不遵循robot协议限制开启pipeline调用DAN...
2019-11-04 11:59:33
898
原创 糗事百科成人版段子爬虫实战
糗事百科成人版的段子爬虫因此正则表达式可以写成然后观察网址规律,发现格式是…page/n,n是页数因此可以自己构造url访问多页最后是针对某些反爬机制 可以自己添加用户代理池和ip代理池然后随机调用代理池(这个糗事百科没什么反爬机制可以不写)常用用户代理池https://blog.youkuaiyun.com/wangqing84411433/article/details/896003...
2019-10-10 16:15:32
41289
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人