前言
爬虫想必很多人都听过,这里简单介绍下爬虫,爬虫是一段可以在网页上自动抓取信息的程序,可以帮助我们获取一些有用的信息。能够完成上述功能的都可以称为爬虫,目前主流的Python爬虫框架主要分为调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。调度器主要来调度管理器、下载器和解析器;URL管理器主要用来管理URL,防止重复抓取或者循环抓取等;网页下载器用于下载网页,并转换成字符串;网页解析器用于解析下载下来的字符串,目前主要以DOM树来解析,也可以根据XML,HTML进行解析。爬虫框架已经帮我们完成了80%的工作,我们只需要关注三个步骤:
1、如何能请求得到目标网站的数据,
2、如何从解析器中截取我们想要数据,
3、得到数据后如何做分析。
【----帮助相关技术学习,以下所有学习资料文末免费领!----】
下面就以斗鱼网站上最火的直播主题,哪些主播的人气最高的目标为例,演示整个实现流程:
python环境搭建
python环境的搭建可以参考以下地址:http://www.runoob.com/python/python-install.html
爬虫框架还需要安装几个模块,requests和beautifulSoup4,分别运行命令,
pip install requests
pip install beautifulSoup4
开发工具选用PyCharm,运行完上面命令后,在PyCharm里安装上面两个组件模块,安装成功后,可以在开发工具里引入相关包
#!/usr/bin/python import requests from bs4 import BeautifulSoup as bs
如果引入成功,则安装完成。环境搭建完后,就开始码代码了。
获取目标网站信息
我们先打开斗鱼直播的网站,https://www.douyu.com/directory/all,F12可以看到网页的信息,
通过requests请求网站数据
response = requests.get(“https://www.douyu.com/directory/all”) print response.text
我们就得到了网页的字符串信息,这里就完成了我们关注的第一步。