
爬虫
文章平均质量分 94
月漾
这个作者很懒,什么都没留下…
展开
-
BeautifulSoup简介
BeautifulSoup简介 介绍 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。 使用 pip 安装即...原创 2019-11-03 17:58:39 · 2171 阅读 · 0 评论 -
爬所有tb图片通用代码-简单分析(xpath)
文章介绍 本文仅介绍使用xpath时,拿不到数据或数据不符预期的解决办法的思路,不包含xpath的基础讲解,如不了解xpath,请自行搜索学习。 本文以下载贴吧帖子中图片为例(文末有具体代码参考) xpath简介 将html中所有标签转换为xml形式,使用xpath的相应语法进行解析及获得数据。 代码思路 爬虫所有的规则都是对比每次url的相同和不同之处: 相同之处直接复制使用; 不同之处就需要分...原创 2019-10-24 16:16:10 · 355 阅读 · 0 评论