Chrome复制的xpath抓取为空的问题

最新推荐文章于 2023-04-13 11:05:13 发布

原创最新推荐文章于 2023-04-13 11:05:13 发布 · 4.1k 阅读

3 ·

CC 4.0 BY-SA版权

xpath 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了解决从网页源代码中使用Xpath获取数据时遇到的问题——当浏览器自动添加了tbody元素导致无法正确抓取数据的情况。通过提供一个具体的Python示例，展示了如何在Xpath表达式中正确地移除tbody，从而成功提取所需信息。

解决办法：去掉xpath中的tbody即可。

原因：浏览器复制的xpath会自动优化，自己加上tbody，其实网页源代码里是没有的。

贴个例子
import requests
from lxml import etree
header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
#豆瓣图书排行网站获取图书的名字
url='https://book.douban.com/top250'
r=requests.get(url,headers=header).content
#print(r)#cookies=Cookies
html=etree.HTML(r)
print(html)
#xpath 是从chrome 获得的   最后的@title 自己加的 ，获取图书的标题
#ids=html.xpath('//tr[@class="item"]')
#ids=html.xpath('//tr[@class="item"]/td/div/a/@title')
ids=html.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div[1]/a/@title')
print(ids)
'''
for id in ids:
    book_name = id.xpath('td/div/a/@title')
    print(book_name)
'''
#//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a