- 博客(2)
- 收藏
- 关注
原创 python爬取新闻数据
爬虫数据网址:新闻中心滚动新闻_新浪网最近想获取一些新闻数据来做一个NLP的分类模型所以爬取了新浪的一些新闻数据用于学习使用。首先先查看网页源码:发现url中id和类别中的s_id相等,经过尝试替换,发现该编号确实是类别所在标签。有发现page这个参数和页数相同,其中num=50,和pageid=153这两个参数没有太大的影响,所以就可以通过修改这两个参数的值来获得不同标签下的url了。然后通过这个url 放入谷歌浏览器中去抓取数据所在的json:可以发现每个数据文件..
2022-03-22 14:49:08
5931
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人