from lxml import etree
#定义一个字符串 HTML
text = “”"
print(text)
#初始化一个xpath一个解析对象,返回的是lxml文件对象
#这个文件对象可以使用xpath,其他都不可以。
html_xml=etree.HTML(text)
print(html_xml)
print(type(html_xml))
#返回一个bytes类型的HTML文件。
html_bytes=etree.tostring(html_xml,encoding="utf-8")
print(html_bytes)
print(type(html_bytes))
#将bytes类型转换成字符串,字符串可以用正则表达式
#转换的过程当中会将残缺的标签自动补齐
html_str=html_bytes.decode("utf-8")
print(html_str)
print(type(html_str))
博客展示了使用Python的lxml库处理HTML的代码示例,通过导入etree模块并定义了一个HTML字符串,体现了在信息技术领域中利用相关库对HTML进行操作的应用。
1897

被折叠的 条评论
为什么被折叠?



