今天在做爬虫练习的时候遇到了一个问题,其实以前好像就遇到过,感觉lxml的etree好像不是很靠谱,经常解析出错,常常我在浏览器写的xpath语法没错,复制过来就出现问题了,今天记录一下xpath解析表格数据的问题。
当解析到网页中的表格数据时,如果你的xpath语法中含有’tbody’而导致爬取了空列表。那么把他去掉即可正常解析。
原因:原因是因为浏览器会对html文本进行一定的规范化?(我也不知道。。。)
lxml xpath 解析tbody出现问题
最新推荐文章于 2025-10-15 14:35:36 发布
本文探讨了使用lxml的etree模块进行网页爬虫时,XPath语法中包含'tbody'导致的数据解析错误。通过实例说明如何避免这一常见问题,确保从网页表格中正确抓取数据。
1574

被折叠的 条评论
为什么被折叠?



