通常针对某一行的内容时,使用text().
如: filename = d.xpath("./div[2]/div/div/a[1]/text()").extract().pop()
针对标签下的存在多个子标签下的多行时,我们采用string(.)进行获取.
如:
desc_info = d.xpath("./div[2]/div/div")
desc_ = desc_info.xpath('string(.)').extract()
desc = ""
for description in desc_:
description_ = description.strip()
desc = desc + description_
print desc
本文深入讲解了使用XPath抓取网页数据的技巧,包括如何利用text()获取单行文本,以及运用string(.)抓取多行文本的方法。通过实例演示,帮助读者掌握更高效的数据抓取技能。
1144

被折叠的 条评论
为什么被折叠?



