高级网页抓取技术:从基础到高级应用
1. 网页抓取基础回顾
在网页抓取领域,有许多实用的工具和技术。例如, lxml 库就提供了不少有用的功能,以下是部分 lxml 特性的总结:
| 方法或属性名称 | 描述 | 文档链接 |
| — | — | — |
| clean_html | 用于清理格式不佳的页面,以便能正确解析 | http://lxml.de/lxmlhtml.html#cleaning-up-html |
| iterlinks | 用于访问页面上每个锚标签的迭代器 | http://lxml.de/lxmlhtml.html#working-with-links |
| [x.tag for x in root] | 所有 etree 元素都可作为简单迭代器,支持子元素迭代 | http://lxml.de/api.html#iteration |
| .nsmap | 若需要处理命名空间,可方便地访问
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



