Python3网络爬虫

3.Python3网络爬虫

3.1爬虫分析

爬取目的:爬取虎牙TV下,英雄联盟主播的人气排行。

爬取网页:https://www.huya.com/g/lol

分析网页:

(1)如何实现爬取目的:抓取主播名称和直播间观看人数;

(2)查找数据的html:在360浏览器下,按f12查看网页的html信息,点击html中左上角的箭头,在网页中选择主播名称、或观看人数,则会跳转到对应的html。

(3)选择数据对应的标识符:为了能爬取不同主播的名称和人气,必须使用唯一的标识符来提取我们需要的数据。

使用<span class="txt">作为标识符的开始,以</span>作为标识符的结束,则不同主播的标识符相同,因此使用一次正则表达式匹配就可以获得所有主播的名称和人气。

3.2代码编写

步骤:抓取网页html;数据提取;数据精炼和数据排序。

#程序3-1

from urllib import

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值