python 爬虫对使用Xpath定位文本内容的处理extract_first()

最新推荐文章于 2025-10-30 13:40:16 发布

小赖同学啊

最新推荐文章于 2025-10-30 13:40:16 发布

阅读量1.7w

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： Xpath定位文本内容的处理extract_first() 爬虫数据处理

本文链接：https://blog.youkuaiyun.com/testManger/article/details/84775213

python 专栏收录该内容

193 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文介绍了Python爬虫中如何利用Xpath定位并处理文本内容。首先，通过`extract_first()`方法获取最外层标签的文本，然后结合正则表达式去除空格和逗号。接着，通过遍历子标签`/text()`获取内容，并将多个文本字符串拼接成一个无标签的干净文本。最后，强调了即使经过正则处理，仍可能需要进一步的数据清洗以达到预期效果。

1.使用string(.)进行we文本内容的处理这时的文本内容并非是真正干净的文本内容还需要借助其他方法进行优化用法如下:

content.xpath('//*[@id="guidePage"]/section[2]/div[2]/ol/li[1]/h4').xpath('string(.)').extract_first()

结果如下:

2.用如下的方法进行优化

2.1 获取最外层标签，遍历内部所有的子标签“/text()”，获取标签文本

class XiaoshuoSpider(scrapy.Spider):
name = 'xiaoshuo'
allowed_domains = ['tieba.baidu.com']
start_urls = ['https://tieba.baidu.com/p/5815118868']
f= open('content.txt','a',encoding='utf-8')
def parse(self, response):

了解本专栏