最近发觉数据分析/数据挖掘是相当的有意思,表现在:当你手头有一大堆的数据,怎么以一种创造性的或者深刻的视角,去发现数据背后的意义?探索这种数据分析/数据挖掘的视角,跟我们去读一些哲思散文,或者是看综艺节目《罗辑思维》、《奇葩说》等,其中的趣味性是类似的。
因此,最近业余时间,一直在了解R语言和学习数据挖掘。学到一点皮毛,就欣欣然想做点专题分析,跃跃欲试。然而做什么专题呢?
想起在西安电子科技大学求学期间的一点小事。
大三新学期有很多选修课,当时选了一门《音乐鉴赏》。跟着老师的步伐,我们聆听了维瓦尔第的《春》、亨德尔的《皇家焰火》、贝多芬的《命运》和《田园》、巴达捷夫斯卡的《少女的祈祷》、鲍罗丁的《在中亚细亚的草原上》、里姆斯基的《舍赫拉查德》,学习了巴赫的钢琴十二平均律和复调、西方音乐每个时期的音乐特点,看了柴可夫斯基的《天鹅湖》和《胡桃夹子》,了解了老师喜欢的卡拉扬和伯恩斯坦。7、8年过去,仿佛还记得当年课程上学习过的每一首作品。
印象最深的还是老师的一句话,作为受过高等教育的大学生,要有一些基本的美的情趣和审美的能力,你们是学工科的,也许这样坐下来听听古典音乐的机会不多,尽管如此,可能若干年以后,你们还会记得当年你们坐在课堂上,上过这么一节课。此情此景,确实仍然历历在目。
记得当时老师还纠正了我们一个概念:何谓“古典音乐”?这个概念大多数人是很笼统的。古典音乐其实是西方音乐中的一个时期或者说一个流派,按照传统的观念,西方音乐经历了中世纪->巴洛克->古典主义->浪漫主义->民族主义->现代主义->后现代主义。而古典主义时期,主要由三个天才代表,海顿、莫扎特和贝多芬,其实就是三师徒(海顿是莫扎特的老师,莫扎特是贝多芬的老师)。然而,中世纪的音乐主要以吟唱为主,而且流传不广,大众就把巴洛克、古典主义、浪漫主义、民族主义的器乐作品都作为古典音乐。了解这一点,已经算是一个“古典”音乐爱好者了。不过,还有很多人,把轻音乐、中国的传统器乐等只要不是流行歌曲的音乐当作古典音乐。
因此,一个简单的Topic是:从数据分析上,验证关于“古典”音乐大众的理解。
OK. Now let’s begin.
首先是解决数据来源。我找到了虾米音乐网。虾米音乐网我经常登,而且在众多音乐内容分享网站中,有比较大的用户群的。其中,里边的精选集,用户可以发布自己喜欢的音乐,并打上相关的标签。例如“古典”、“开心”、“伤感”等,这是我们分析的基础。
http://www.xiami.com/search/collect/page/2?spm=a1z1s.3065917.6862697.137.1JVmvM&key=古典&order=weight