1.使用string(.)进行we文本 内容的处理 这时的文本内容并非是真正干净的文本内容 还需要借助其他方法进行优化 用法如下:
content.xpath('//*[@id="guidePage"]/section[2]/div[2]/ol/li[1]/h4').xpath('string(.)').extract_first()
结果如下:

2.用如下的方法进行优化
2.1 获取最外层标签,遍历内部所有的子标签“/text()”,获取标签文本
class XiaoshuoSpider(scrapy.Spider):
name = 'xiaoshuo'
allowed_domains = ['tieba.baidu.com']
start_urls = ['https://tieba.baidu.com/p/5815118868']
f= open('content.txt','a',encoding='utf-8')
def parse(self, response):
本文介绍了Python爬虫中如何利用Xpath定位并处理文本内容。首先,通过`extract_first()`方法获取最外层标签的文本,然后结合正则表达式去除空格和逗号。接着,通过遍历子标签`/text()`获取内容,并将多个文本字符串拼接成一个无标签的干净文本。最后,强调了即使经过正则处理,仍可能需要进一步的数据清洗以达到预期效果。
订阅专栏 解锁全文
4014

被折叠的 条评论
为什么被折叠?



