--python小爬虫心得
想要爬取一个大模块比如一个div所有内容(包括标签),用xpath取出的是一个xml对象,如何将xml对象转化为string字符串?
使用etree下的toString方法,参数设置method="xml"(也可以不设置,因为默认为xml),encoding="utf-8"(不设置汉字会以ACCII码显示,设置后会输出汉字对应的unicode编码),最后使用decode()方法把unicode转化为汉子就ok了(网上搜的一般是解析xml,比较麻烦,如果想要转化json可以使用,但是只想要html的话不推荐)
本文介绍使用Python爬虫抓取网页内容时,如何通过XPath获取div等元素,并利用etree的toString方法将XML对象转换成字符串形式。适用于希望直接获取HTML字符串而非解析XML的情况。
1082

被折叠的 条评论
为什么被折叠?



