1、选择当前节点下部分节点
如:
获取http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/11/01/01/110101001.html的“统计用区划代码”和“城乡分类代码”两列内容
xpath = '//tr[@class="villagetr"]/td/preceding-sibling::*[1]/text()'
获取http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/11/01/01/110101001.html的“城乡分类代码”和“名称”两列内容
xpath = '//tr[@class="villagetr"]/td/following-sibling::*[1]/text()'
参考网址:
https://www.jianshu.com/p/820dcd013993
https://blog.youkuaiyun.com/lengchun10/article/details/41044119
2、选取当前节点不包含值为**的节点
如:
获取http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/11/01/01/110101001.html的三列内容中不为“111”的内容
xpath = '//tr[@class="villagetr"]/td[text()!="111"]/text()'
3、选取当前节点包含值为**的节点
如:
①获取http://www.xzqh.org/old/waiguo/asia/index.htm的所有国家列表
xpath = '//div[@align="center"]//div[@align="center"]//tr/td/a[contains(@target,"_blank")]/text()'
②获取https://www.fmprc.gov.cn/web/gjhdq_676201/gj_676203/dyz_681240/1206_681890/1206x0_681892/包含“行政区划”的节点的节点文本
xpath = '//div[@class="wjbox_content"]/p[contains(text(),"行政区划")]/text()'
408

被折叠的 条评论
为什么被折叠?



