1.使用Beautiful Soup解析网页
通过request库已经抓取到网页源码,接下来要从源码中找到并提取数据。Beautiful Soup是python的一个库,其主要功能是从网页中抓取数据。Beautiful Soup目前已经被移植到bs4库中,也就是说在导入Beautiful Soup时需要先安装bs4。
安装好bs4库后,还需要安装lxml库。如果我们不安装lxml库,就会使用python默认的解析器。尽管Beautiful Soup既支持python标准库中的HTML解析器,又支持一些第三方解析器,但是lxml库功能更强大,速度更快,因此笔者推荐安装lxml库。
pip3 install request
pip3 install bs4
pip3 install lxml
Beautiful Soup库能够轻松解析网页信息,它被集成在bs4库中,需要时可以从bs4库中调用。首先,HTML文档将被转换成Unicode编码格式,然后Beautiful Soup选择最合适的解析器来解析这个文档,此处指定lxml库进行解析,解析后便将复杂的HTML文档转换成树形结构,并且每个节点都是python对象。
2.网络爬虫的基本原理
2.1网页请求
(1)Request
每个展示在用户面前的网页都必须经过这一步,也就是向服务器发送访问请求;
(2)Response
服务器在接收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内容;客户端接收服务器响应的内容,将内容展示出来,这就是我们所熟悉的网页请求。
2.2请求方式
(1)GET
最常见的方式,一般用于获取或查询资源信息,参数设置在URL中,其也是大多数网站

最低0.47元/天 解锁文章
485

被折叠的 条评论
为什么被折叠?



