Python爬虫入门7：HTML报文解析获取网页基本信息

最新推荐文章于 2023-02-14 10:44:44 发布

原创最新推荐文章于 2023-02-14 10:44:44 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #编程语言 #爬虫 #BeautifulSoup #HTML解析

Python爬虫入门专栏收录该内容

23 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python爬虫中BeautifulSoup的安装、导入和创建对象，详细讲解了如何通过BeautifulSoup解析HTML报文，获取网页的基本信息，包括标题、主机、请求头等。同时，提供了对文本字符串和文件对象解析的简例。

☞ ░ 前往老猿Python博客 https://blog.youkuaiyun.com/LaoYuanPython ░

一、引言

BeautifulSoup是三方模块bs4中提供的进行HTML解析的类，可以认为是一个HTML解析工具箱，对HTML报文中的标签具有比较好的容错识别功能，阅读本节需要了解html相关的基础知识，如果这方面知识不足请参考前面章节介绍内容。

二、BeautifulSoup安装、导入和创建对象

2.1、安装BeautifulSoup和lxml

BeautifulSoup是bs4模块的类，lxml是一款html文本解析器，在操作系统命令行方式执行安装bs4模块和lxml解析器模块的命令：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple bs4
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple lxml

了解本专栏

超级会员免费看

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

LaoYuanPython 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。