3.Python3网络爬虫
3.1爬虫分析
爬取目的:爬取虎牙TV下,英雄联盟主播的人气排行。
爬取网页:https://www.huya.com/g/lol
分析网页:
(1)如何实现爬取目的:抓取主播名称和直播间观看人数;
(2)查找数据的html:在360浏览器下,按f12查看网页的html信息,点击html中左上角的箭头,在网页中选择主播名称、或观看人数,则会跳转到对应的html。
(3)选择数据对应的标识符:为了能爬取不同主播的名称和人气,必须使用唯一的标识符来提取我们需要的数据。
使用<span class="txt">作为标识符的开始,以</span>作为标识符的结束,则不同主播的标识符相同,因此使用一次正则表达式匹配就可以获得所有主播的名称和人气。
3.2代码编写
步骤:抓取网页html;数据提取;数据精炼和数据排序。
#程序3-1
from urllib import