Scrapy提取嵌套标签的text

最新推荐文章于 2022-09-19 09:56:18 发布

原创最新推荐文章于 2022-09-19 09:56:18 发布 · 352 阅读

0 ·

CC 4.0 BY-SA版权

对于要提取嵌套标签所有内容的情况, 使用string或//text(), 注意两者区别

Python

>>> from <a href="https://www.168seo.cn/tag/scrapy" title="View all posts in scrapy" target="_blank">scrapy</a> import Selector >>> >>> doc = "helloworld!" >>> >>> sel = Selector(text=doc, type='html') >>> >>> sel.xpath("/p[@id='test']/text()").extract() []

>>> from scrapy import Selector

>>>

>>> doc = "helloworld!"

>>>

>>> sel = Selector ( text = doc , type = 'html' )

>>>

>>> sel . xpath ( "/p[@id='test']/text()" ) . extract ( )

[ ]

使用text()

Python

>>>#使用两个反斜杠 >>> sel.xpath("//p[@id='test']/text()").extract() [u'hello'] >>> #这样提取出来是一个列表, >>> sel.xpath("//p[@id='test']//text()").extract() [u'hello', u'world!'] >>>

>>> #使用两个反斜杠

>>> sel . xpath ( "//p[@id='test']/text()" ) . extract ( )

[ u 'hello' ]

>>> #这样提取出来是一个列表,

>>> sel . xpath ( "//p[@id='test']//text()" ) . extract ( )

[ u 'hello' , u 'world!' ]

>>>

使用string

Python

>>> sel.xpath("//p[@id='test']").xpath('string(.)').extract() [u'helloworld!'] >>> >>> sel.xpath("string(//p[@id='test'])").extract() [u'helloworld!'] >>>

>>> sel . xpath ( "//p[@id='test']" ) . xpath ( 'string(.)' ) . extract ( )

[ u 'helloworld!' ]

>>>

>>> sel . xpath ( "string(//p[@id='test'])" ) . extract ( )

[ u 'helloworld!' ]

>>>