Scrapy提取嵌套标签的text

对于要提取嵌套标签所有内容的情况, 使用string//text(), 注意两者区别

Python
>>> from <span class="wp_keywordlink_affiliate"><a href="https://www.168seo.cn/tag/scrapy" title="View all posts in scrapy" target="_blank">scrapy</a></span> import Selector >>> >>> doc = "<p id='test'>hello<b>world!</b></p>" >>> >>> sel = Selector(text=doc, type='html') >>> >>> sel.xpath("/p[@id='test']/text()").extract() []
1
2
3
4
5
6
7
8
>>> from scrapy import Selector
>>>
>>> doc = "<p id='test'>hello<b>world!</b></p>"
>>>
>>> sel = Selector ( text = doc , type = 'html' )
>>>
>>> sel . xpath ( "/p[@id='test']/text()" ) . extract ( )
[ ]

 

使用text()

Python
>>>#使用两个反斜杠 >>> sel.xpath("//p[@id='test']/text()").extract() [u'hello'] >>> #这样提取出来是一个列表, >>> sel.xpath("//p[@id='test']//text()").extract() [u'hello', u'world!'] >>>
1
2
3
4
5
6
7
>>> #使用两个反斜杠
>>> sel . xpath ( "//p[@id='test']/text()" ) . extract ( )
[ u 'hello' ]
>>> #这样提取出来是一个列表,
>>> sel . xpath ( "//p[@id='test']//text()" ) . extract ( )
[ u 'hello' , u 'world!' ]
>>>

 

使用string

Python
>>> sel.xpath("//p[@id='test']").xpath('string(.)').extract() [u'helloworld!'] >>> >>> sel.xpath("string(//p[@id='test'])").extract() [u'helloworld!'] >>>
1
2
3
4
5
6
>>> sel . xpath ( "//p[@id='test']" ) . xpath ( 'string(.)' ) . extract ( )
[ u 'helloworld!' ]
>>>
>>> sel . xpath ( "string(//p[@id='test'])" ) . extract ( )
[ u 'helloworld!' ]
>>>




  • zeropython 微信公众号 5868037 QQ号 5868037@qq.com QQ邮箱
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值