Beautiful Soup简介
在前面两篇文章中介绍了如何使用reqeusts发起请求和获取返回内容,很多爬取的内容大多是html数据,这一篇我们讲如何去解析html。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航。查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。
官方文档很详细,还有中文,建议参考
Beautiful Soup 4.4.0 文档
安装Beautiful Soup
pip install beautifulsoup4
beautifulsoup4是4.0版本,推荐使用,beautifulsoup是Beautiful Soup3的版本,