自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_57344778的博客

原创 python爬取新闻数据

爬虫数据网址：新闻中心滚动新闻_新浪网最近想获取一些新闻数据来做一个NLP的分类模型所以爬取了新浪的一些新闻数据用于学习使用。首先先查看网页源码：发现url中id和类别中的s_id相等，经过尝试替换，发现该编号确实是类别所在标签。有发现page这个参数和页数相同，其中num=50,和pageid=153这两个参数没有太大的影响，所以就可以通过修改这两个参数的值来获得不同标签下的url了。然后通过这个url 放入谷歌浏览器中去抓取数据所在的json：可以发现每个数据文件..

2022-03-22 14:49:08 6128 1

原创爬取笔趣阁小说

用python的xpath爬取笔趣阁小说。

2022-03-12 01:00:00 2767 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄5年

2
原创

11
点赞

120
收藏

8
粉丝

关注

私信

热门文章

最新评论

python爬取新闻数据
m0_72140765: 哥，为什么我jupyter运行这个代码运行了好久
爬取笔趣阁小说
王大强强强: 想问一下怎么验证中文加密方式的
爬取笔趣阁小说
失意.ޓއއއ465: 怎么办呀
爬取笔趣阁小说
qq_57344778: 多了一个验证码的验证，就是必须要输入验证码了，这是网页的反爬机制。
爬取笔趣阁小说
Stars.眸七: Traceback (most recent call last): File "G:/pythonProject/TXT/get.py", line 20, in <module> for item in html.xpath('//*[@id="main"]/div[1]')[0][1:-1]: IndexError: list index out of range

提示

确定要删除当前文章？

取消删除