8、嘻哈歌词韵律模式识别与法语电视新闻故事分割研究

嘻哈歌词韵律模式识别与法语电视新闻故事分割研究

嘻哈歌词韵律模式识别
  1. 数据收集与预处理
    • 下载约 52,000 首嘻哈歌曲的歌词,原始 HTML 内容约 800MB。
    • 数据清理步骤如下:
      • 去除 HTML 标签和各种元数据(如艺术家、歌曲名、副歌对应行、节拍等)。
      • 利用简单启发式方法识别并标记诗句。
      • 对特殊字符和大小写差异进行归一化处理,过滤掉数据中残留的格式错误的 HTML 标签。
      • 从每句诗句中提取行尾单词和逗号前的单词。
    • 最终得到包含 260,000 句诗句、420 万个标记(约 153,000 个唯一标记)的语料库。
  2. 模型评估
    • 任务:为给定诗句标记韵律模式。
    • 评估方法:由于目前没有用于此类任务性能评估的标注黄金标准语料库,所以进行手动评估。从训练数据中随机选取 75 个句子作为测试集,让两位以英语为母语的人用黄金标准韵律模式对诗句进行标注,并要求他们对长度超过四的韵律模式进行适当分割。针对这个黄金标准,对每句诗句的维特比解析结果进行精确率和召回率的汇总,并计算 f - 分数。
  3. 实验结果
    • 累积概率分布
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值