嘻哈歌词韵律模式识别与法语电视新闻故事分割研究
嘻哈歌词韵律模式识别
- 数据收集与预处理
- 下载约 52,000 首嘻哈歌曲的歌词,原始 HTML 内容约 800MB。
- 数据清理步骤如下:
- 去除 HTML 标签和各种元数据(如艺术家、歌曲名、副歌对应行、节拍等)。
- 利用简单启发式方法识别并标记诗句。
- 对特殊字符和大小写差异进行归一化处理,过滤掉数据中残留的格式错误的 HTML 标签。
- 从每句诗句中提取行尾单词和逗号前的单词。
- 最终得到包含 260,000 句诗句、420 万个标记(约 153,000 个唯一标记)的语料库。
- 模型评估
- 任务:为给定诗句标记韵律模式。
- 评估方法:由于目前没有用于此类任务性能评估的标注黄金标准语料库,所以进行手动评估。从训练数据中随机选取 75 个句子作为测试集,让两位以英语为母语的人用黄金标准韵律模式对诗句进行标注,并要求他们对长度超过四的韵律模式进行适当分割。针对这个黄金标准,对每句诗句的维特比解析结果进行精确率和召回率的汇总,并计算 f - 分数。
- 实验结果
- 累积概率分布
超级会员免费看
订阅专栏 解锁全文
49

被折叠的 条评论
为什么被折叠?



