Python是最常用的爬虫语言之一,其中的优点就不在这里敷述。Python提供了一个很方便的爬虫基础组件包——BeautifulSoup,在这里结合实践介绍一下它的安装和使用。
安装
因为开发是在Windows环境下的,网上也有很多介绍安装过程的,本以为非常简单,却发生了一些小波折。官网下载地址:
https://pypi.python.org/pypi/beautifulsoup4/4.3.2
下载之后的压缩文件解压缩到任意目录。运行:
setup.py build
setup.py install
正常情况下这两步就安装完成了。验证:
进入pathon环境后,执行
from bs4 import BeautifulSoup
不报错即安装正确。如图:
我遇到的情况是,当时在写一些Python小程序,把pycharm开着,结果运行setup.py build的时候后台唤起了pycharm。命令行没有报错:
在验证的时候只在当前目录有效,换目录或在pycharm中一直报错。找到原因之后,在pycharm中通过参数运行安装命令后(也是分别执行build和install),解决问题。
BeautifulSoup的使用
BeautifulSoup将HTML解析成四类对象:
- Tag,HTML标签对象
- NavigableString,节点内容
- BeautifulSoup,文档对象,相当于特殊的tag
- Comment,处理注释内容
先不解释其中的过多概念,在边做边学的过程中自然就理解了其中的含义。下面以一个3c评测网站介绍一下它的使用。
网站链接:
http://gadgets.ndtv.com/mobiles/reviews/infinix-note-4-infinix-hot-4-pro-hands-on-1732642