大数据之如何利用爬虫爬取数据做分析

前言

爬虫想必很多人都听过,这里简单介绍下爬虫,爬虫是一段可以在网页上自动抓取信息的程序,可以帮助我们获取一些有用的信息。能够完成上述功能的都可以称为爬虫,目前主流的Python爬虫框架主要分为调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。调度器主要来调度管理器、下载器和解析器;URL管理器主要用来管理URL,防止重复抓取或者循环抓取等;网页下载器用于下载网页,并转换成字符串;网页解析器用于解析下载下来的字符串,目前主要以DOM树来解析,也可以根据XML,HTML进行解析。爬虫框架已经帮我们完成了80%的工作,我们只需要关注三个步骤:

1、如何能请求得到目标网站的数据,

2、如何从解析器中截取我们想要数据,

3、得到数据后如何做分析。

【----帮助相关技术学习,以下所有学习资料文末免费领!----】

下面就以斗鱼网站上最火的直播主题,哪些主播的人气最高的目标为例,演示整个实现流程:

python环境搭建

python环境的搭建可以参考以下地址:http://www.runoob.com/python/python-install.html

爬虫框架还需要安装几个模块,requests和beautifulSoup4,分别运行命令,

pip install requests

pip install beautifulSoup4

开发工具选用PyCharm,运行完上面命令后,在PyCharm里安装上面两个组件模块,安装成功后,可以在开发工具里引入相关包

#!/usr/bin/python import requests from bs4 import BeautifulSoup as bs

如果引入成功,则安装完成。环境搭建完后,就开始码代码了。

获取目标网站信息

我们先打开斗鱼直播的网站,https://www.douyu.com/directory/all,F12可以看到网页的信息,大数据之如何利用爬虫爬取数据做分析

通过requests请求网站数据

response = requests.get(“https://www.douyu.com/directory/all”) print response.text

大数据之如何利用爬虫爬取数据做分析

我们就得到了网页的字符串信息,这里就完成了我们关注的第一步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值