- Python HTML正文抽取(存储为JSON) [ 笔记 ]

博客内容介绍了使用Python从静态网站抓取小说的标题、章节、名称和链接,并存储为JSON格式。过程中遇到了示例代码无法直接运行的问题,经过调整后成功实现目标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

抽取HTML后的内容,一般都会存储为JSON或者CSV格式。《Python爬虫开发与项目实战》一书中以小说阅读网为例,抽取出小说的标题、章节、名称和对应链接,那么为了保险起见,还是老老实实照着来吧 —— 

在抽取之前,作者在书中特意强调了一点,http://seputu.com/是一个静态网站,它所有的标题章节名称都不是由JavaScript动态加载的,虽然我不明白作者为什么要特意强调这一点,但是既然他强调了,作为学习者,我也还是把这个前提提出来,至于为什么,等我以后学会了爬虫应该就知道为什么了,反正现在不管

 那么打开网站可以看到,整个小说的目录是酱紫的,这里只截图一部分放出来,意思意思就可以了 ——

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值