lxml直接解析文档
etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
from lxml import etree
text="""
<p>
<span class="salary">10k-20k </span>
<span>/北京 /</span>
<span>经验1-3年 /</span>
<span>本科及以上 /</span>
<span>全职</span>
</p>
"""
def htmlstr():
pyelement=etree.HTML(text)
#返回一个字符串。
html=etree.tostring(pyelement,encoding="utf-8").decode('utf-8')
调用tostring()方法得到HTML代码结果是bytes类型,再使用decode()方法将其转成str类型
读取html文件
def parse_html(url):
parser=etree.HTMLParser(encoding="utf-8")
pyelement=etree.parse(url,parser=parser)
html=etree.tostring(pyelement, encoding="utf-8").decode("utf-8")