音乐的四部和声与频谱图层次聚类分析
在音乐的研究领域中,四部和声的生成以及音乐结构的分析一直是重要的研究方向。下面将为大家详细介绍两种四部和声模型以及一种基于频谱图的音乐结构分析新方法。
四部和声模型对比
在四部和声的研究中,我们对比了基于贝叶斯网络(BN)和循环神经网络(RNN)的两种模型。
RNN模型结构
RNN模型用于从高音旋律生成中音、次中音和低音旋律。高音旋律被编码为36维的独热向量序列作为模型输入,其中前35维对应指定音高范围[50, 84]内的MIDI音符编号,第36维表示乐曲边界信号。其他三个声部也以同样的方式编码作为目标数据,只是音高范围不同,中音为[45, 79],次中音为[40, 74],低音为[35, 69]。
该模型有两个带有长短期记忆(LSTM)单元的循环层,分别是前向RNN和后向RNN。前向RNN从乐曲开头到结尾有循环连接,后向RNN则有反向的循环连接。每个RNN将N步的乐曲编码为N个固定维度的向量,然后将两个配对的向量简单拼接。具体公式如下:
- (f_1, f_2, \cdots, f_N = ForwardRNN(s_1, s_2, \cdots, s_N))
- (b_1, b_2, \cdots, b_N = BackwardRNN(s_1, s_2, \cdots, s_N))
- (c_i = [f_i; b_i])
这里,(f_i)编码了从开头到第i步的高音旋律,(b_i)编码了从第i步到结尾的旋律,因此(c_i)编码了整个旋律的信息。编码后,(c_i)通过全连接层FC1和FC2进行解码,再应用softmax函数将三个声部预测为概率分布。学习