python爬虫入门之丁香园

本文介绍了一种通过XHR提取JSON数据的方法,并利用正则表达式进行数据清洗。同时,探讨了使用XPath处理回复数据,通过string(.)函数获取文本内容,对比不同处理方式,确保资源如图片等得到妥善处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一次

xhr
提取json即可
在这里插入图片描述
结果中的一些标签 使用正则替换即可
在这里插入图片描述

第二次

增加 xpath 处理reply
string(.) 获取中间文字
在这里插入图片描述
对比第一天结果
在这里插入图片描述
可能漏掉了一些图片或者其他资源 处理原理 判断截取就行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值