歌曲音乐爬虫编写

本文介绍了作者初次尝试编写博客的经历,并分享了一个用于批量爬取歌曲可播放地址的Python爬虫脚本。该脚本主要用于构建一个类似酷狗音乐的音乐播放网站,通过分析网页标签获取到纯播放地址,避免了下载歌曲的存储问题。使用了Python3和webdriver(谷歌浏览器驱动),利用selenium框架处理非静态页面,针对搜狗音乐网站进行爬取。爬取的数据存储在数据库中,每个歌曲带有音乐标签,总计爬取了1万多条数据。

音乐爬虫(关于批量爬取歌曲的可播放地址)


AS A Start

  • 这是我自己第一次写博客,现在处在在大四开始的阶段,对自己需要做的事情有很多的不确定和迷茫,加上自己大三暑假在实验室有真正意义上接触一些项目课题(虽然最后也没有进那个组),但是真的也会学到了很多(这里还是要提一下,只有在自己真正把书本上的东西带入使用中,可能觉得才是真正意义上地进入了计算机这个专业吧),写博客的原因也是想对自己做的东西做一个整理,想在自言自语中总结自己的摸索过程,在选择博客上,一开始是想用hexo+github搭建个人博客,看了几个别人的个人博客,风格的确是很吸引人,但是搭了一下午也没在linux上搭建成功(应该是nodejs和npm管理版本的不匹配问题),所以也是先在优快云上编写,等到后面有时间再继续搭建。
  • -

环境搭建

这篇主要讲的是一个比较简单的爬虫脚本,其实在写这份代码之前我因为研究课题的原因做了半个月的微博爬虫,所以写起来也是比较快。用于我的数据库小学期的数据源,小学期的课程作业是搭建一个B/S结构的数据库管理系统,我们组想要做的是一个类似于酷狗音乐之类的音乐播放网站(包括个性推荐和个人搜索播放等),首先就是得建立歌曲的数据库,一开始的想法也是下载歌曲放在文件系统的某一个目录下,用路径作为歌曲播放标识,但是在做爬虫下载时发现现在的音乐网站(包括网易云等)都是需要下载客户端才可以下载歌曲的,这个时候在分析抓取的网页标签时发现了每个歌曲的标签下带着纯播放地址,这样就想到了直接用audio标签链接源音乐播放地址,这样也不需要下载歌曲占用存储空间,一举两得。

这里我们需要的是python3 + webdriver(google)

程序说明

代码见git ——

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值