lxml模块的了解
在前面一篇文章讲解了xpath的语法,那么在python爬虫代码中我们如何使用xpath呢? 对应的我们需要使用到lxml模块
1 lxml的安装
安装方式:pip install lxml
2 lxml的使用
2.1 lxml模块的入门使用
- 导入lxml 的 etree 库 (导入没有提示不代表不能用)
`from lxml import etree`
- 利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据
html = etree.HTML(text)
ret_list = html.xpath("xpath字符串")
- 把转化后的element对象转化为字符串,返回bytes类型结果 etree.tostring(element)
假设我们现有如下的html字符换,尝试对他进行操作
<div> <ul>
<li class="item-1"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a> # 注意,此处缺少一个 </li> 闭合标签
</ul> </div>
from lxml import etree
text = ''' <div> <ul>
<li class=

最低0.47元/天 解锁文章
3158

被折叠的 条评论
为什么被折叠?



