照葫芦画瓢之python爬虫系列----(2)初次爬取简单的动态网页数据(网易、QQ音乐排行榜)

本文介绍了如何使用Python的Selenium库结合ChromeDriver来爬取动态网页数据,具体应用在爬取网易云音乐播放数超过500万的歌单和QQ音乐榜单上。在爬取网易云音乐时,遇到HTML未运行JavaScript的问题,通过Selenium解决了。同时,文章提到了QQ音乐榜单爬取时的数量标签中文处理和翻页URL的动态拼接方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

感谢提供素材的同学,无论好坏,高低,我都真心佩服你:参考文章地址:https://mp.weixin.qq.com/s/AXr8BjR_tU-E9YBo-mLVlg


爬取网易云音乐榜单

在上一篇的文章中,总结了爬虫的四个步骤,之后的爬虫也大都会按照这四个步骤去分析。因为这样分析更有利于我们去看清问题所在,看看我们爬虫所面对的难点是在那个步骤上,然后我们也可以做到心里有数,让我们去学习更加有目标。

在这里定下一个小目标:爬取网易云播放数大于500万的歌单

我们第一步可能会去尝试着去使用前面的urllib去获取网页源代码,在这里我们先尝试一下:获取的东西是什么?

代码:

html = urlopen('http://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0')
print(html)

结果:

<http.client.HTTPResponse object at 0x000001ADFBE16198>

很明显,我们按照这种方法是没有办法拿到源代码的,

现在的问题就是:我们获取不到源代码。我们也发现问题是:网站的HTML页面没有运行javaScript,那我们的问题是让我们爬取的html页面运行javaScript即可。


文章中的解决方法是 Selenium + PhantomJS (因为时代的变迁,PhantomJS已经不被selenium所支持)


我的解决方法是:Selenium + ChromeDriver


selenium是一款十分神奇的工具--------作者(我)这样觉得

使用selenium需要自己去下载,如果是基于pycharm开发,那么可以使用File-->settings


来添加selenium.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值