python如何将xml对象转化为字符串

最新推荐文章于 2024-04-19 13:41:45 发布

原创最新推荐文章于 2024-04-19 13:41:45 发布 · 9.6k 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍使用Python爬虫抓取网页内容时，如何通过XPath获取div等元素，并利用etree的toString方法将XML对象转换成字符串形式。适用于希望直接获取HTML字符串而非解析XML的情况。

--python小爬虫心得

想要爬取一个大模块比如一个div所有内容(包括标签)，用xpath取出的是一个xml对象,如何将xml对象转化为string字符串？

使用etree下的toString方法，参数设置method="xml"(也可以不设置，因为默认为xml)，encoding="utf-8"(不设置汉字会以ACCII码显示,设置后会输出汉字对应的unicode编码)，最后使用decode()方法把unicode转化为汉子就ok了(网上搜的一般是解析xml，比较麻烦，如果想要转化json可以使用，但是只想要html的话不推荐)