8、嘻哈歌词韵律模式识别与法语电视新闻故事分割研究

最新推荐文章于 2025-08-19 13:36:58 发布

Alpha

最新推荐文章于 2025-08-19 13:36:58 发布

阅读量48

点赞数

CC 4.0 BY-SA版权

分类专栏：解读《SLSP 2013》：统计语言与语音处理的新视角文章标签：嘻哈歌词韵律模式识别隐马尔可夫模型

本文链接：https://blog.youkuaiyun.com/alpha/article/details/149645858

解读《SLSP 2013》：统计语言与语音处理的新视角专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

                    
                        
                    
                     嘻哈歌词韵律模式识别与法语电视新闻故事分割研究  
 嘻哈歌词韵律模式识别  
  数据收集与预处理  
   下载约 52,000 首嘻哈歌曲的歌词，原始 HTML 内容约 800MB。 
 数据清理步骤如下： 
     去除 HTML 标签和各种元数据（如艺术家、歌曲名、副歌对应行、节拍等）。 
 利用简单启发式方法识别并标记诗句。 
 对特殊字符和大小写差异进行归一化处理，过滤掉数据中残留的格式错误的 HTML 标签。 
 从每句诗句中提取行尾单词和逗号前的单词。 
 
 最终得到包含 260,000 句诗句、420 万个标记（约 153,000 个唯一标记）的语料库。 
 
  模型评估  
   任务：为给定诗句标记韵律模式。 
 评估方法：由于目前没有用于此类任务性能评估的标注黄金标准语料库，所以进行手动评估。从训练数据中随机选取 75 个句子作为测试集，让两位以英语为母语的人用黄金标准韵律模式对诗句进行标注，并要求他们对长度超过四的韵律模式进行适当分割。针对这个黄金标准，对每句诗句的维特比解析结果进行精确率和召回率的汇总，并计算 f - 分数。 
 
  实验结果  
    累积概率分布  

                

会员秒杀 ¥9.9 重磅福利

超级会员免费看