结果
对过程没有兴趣的童鞋直接看这里啦。
评论数大于五万的歌曲排行榜
首先恭喜一下我最喜欢的歌手(之一)周杰伦的《晴天》成为网易云音乐第一首评论数过百万的歌曲!
通过结果发现目前评论数过十万的歌曲正好十首,通过这前十首发现:
- 薛之谦现在真的很火啦~
- 几乎都是男歌手啊,男歌手貌似更受欢迎?(别打我),男歌手中周杰伦、薛之谦、许嵩(这三位我都比较喜欢)几乎占了榜单半壁江山...
- 《Fade》电音强势来袭,很带感哈(搭配炫迈写代码完全停不下来..)
根据结果做了网易云音乐歌单 :
提示: 评论数过五万的歌曲 歌单中个别歌曲由于版权问题暂时下架,暂由其他优秀版本代替。
高能预警:TOP 29 《Lost Rivers》请慎重播放,如果你坚持播放请先看评论...
-
-
过程
- 观察网易云音乐官网页面HTML结构
首页( http://music.163.com/)
歌单分类页( http://music.163.com/discover/playlist)。
歌单页( http://music.163.com/playlist?id=499518394)
歌曲详情页( http://music.163.com/song?id=109998) - 爬取歌曲的ID
通过观察歌曲详情页的URL,我们发现只要爬取到对应歌曲的ID就可以得到它的详情页URL,而歌曲的信息都在详情页。由此可知只要收集到所有歌曲的ID那么就可以得到所有歌曲的信息啦。而这些ID要从哪里爬呢?从歌单里爬,而歌单在哪爬呢?通过观察歌单页的URL我们发现歌单也有ID,而歌单ID可以从歌单分类页中爬,好了就这样爬最终就能收集到所有歌曲的ID了。 -
通过爬取评论数筛选出符合条件的歌曲
很遗憾的是评论数虽然也在详情页内,但是网易云音乐做了防爬处理,采用AJAX调用评论数API的方式填充评论相关数据,由于异步的特性导致我们爬到的页面中评论数是空,那么我们就找一找这个API吧,通关观察XHR请求发现是下面这个家伙..
- 观察网易云音乐官网页面HTML结构
-