本人环境使用的是mac环境,其他环境同理,单独安装python安装以及依赖包比较麻烦一次使用Anaconda管理python环境,Anaconda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换。Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等
- Anaconda安装
- pycharm安装
- 安装bs4
- 编写第一个爬虫程序
Anaconda安装
-
- Anaconda下载地址:https://www.anaconda.com/distribution/#download-section,下载完成后直接安装
- 创建python虚拟环境,打开终端输入 conda create -n python3.7 python=3.7
-
安装完成后输入 activate python3.7。输入which python可以看到
- Anaconda下载地址:https://www.anaconda.com/distribution/#download-section,下载完成后直接安装
pycharm安装
pycharm 下载地址:https://www.jetbrains.com/pycharm/download/,下载完成后需要破解,破解方法见http://idea.lanyus.com/
安装bs4
BeautifulSoup库是解析,遍历,维护“标签树”代码的功能库;名字为beautifulsoup4或bs4。
编写第一个爬虫程序
打开python点击interpreter后面的设置图标。设置环境地址为/anaconda3/bin/python,新建工程。
使用BeautifulSoup编写第一个爬虫程序
以下代码是找出标签为h4以及class属性为widget-title的html片段
import requests
from bs4 import BeautifulSoup
r = requests.get('http://www.santostang.com/')
soup = BeautifulSoup(r.text, "lxml")
print(soup.find('h4', {'class':'widget-title'})) ##找到标签为h4 ,以及其属性为 widget-title的标签