- 博客(17)
- 收藏
- 关注
原创 MM-role 首个多模态角色扮演框架(ICLR)
广泛的评估结果表明 MMRole-Agent 的性能有所提高,并突出了在制定 MRPA 方面的主要挑战,强调需要加强多模态理解和角色扮演的一致性。为了弥补这一差距,我们引入了多模态角色扮演代理 (Multimode role-Play Agent,MRPA) 的概念,并提出了一个全面的框架 MMRole,用于开发和评估,该框架包括。此外,我们提出了一个健壮的评估方法,MMRole-Eval,包括八个跨三个维度的指标,其中奖励模型被设计为评分 MRPA 与构建的 ground-truth 数据进行比较。
2025-03-25 20:48:53
676
原创 (专栏)Beats:结合声学分词器的音频(非语音)预训练框架
近年来,自监督学习(SSL)在语音和音频处理领域取得了巨大成功。例如,Wav2vec 2.0 、HuBERT、BigSSL、WavLM 和 data2vec 等语音SSL模型在各种任务中表现出色,尤其是在低资源场景下。与语音不同,,这给通用音频建模带来了巨大挑战(为此,SS-AST和 AudioMAE 等音频SSL模型被提出用于通用音频分类任务,证明了SSL不仅能够为语音,也能为非语音信号学习鲁棒的听觉表示。
2025-03-18 10:46:06
623
原创 Wav2vec 2.0
这种连续与离散特征的结合是wav2vec 2.0模型成功的关键因素之一,使其能够在极少量标注数据的情况下仍然取得出色的语音识别性能。:在wav2vec 2.0中,离散特征作为对比学习任务中的目标,模型需要预测被掩码时间步的正确离散表示.:连续特征是由特征提取器(CNN编码器)直接输出的浮点数向量表示,保留了原始音频的丰富信息。:通过量化模块将连续特征映射到有限的码本条目集合中,形成离散的表示。:连续特征保留更多细节信息,而离散特征提供更抽象、更稳定的表示。连续的语音特征与离散的语音特征的区别。
2025-03-15 22:24:59
87
原创 R1-Omni: 第一个基于RLVR+GRPO的可解释全模态情感识别
例如,R1-V已应用于几何推理和视觉计数等任务,使用RLVR训练的MLLMs不仅展示出强大的推理能力,还在领域内测试中达到与监督微调(SFT)相当的性能,同时在分布外(OOD)评估中显著优于SFT模型。具体来说,R1-Omni模型实现了43.00%的UAR和44.69%的WAR,超过了SFT模型29.33%的UAR和30.75%的WAR性能。由于多模态数据的固有挑战,如视频和音频标记内的因果关系比文本标记弱,以及缺乏对推理内容的显式监督,在模型的推理过程中可能会出现幻觉。
2025-03-15 22:23:17
1125
原创 (专栏)emotion2vec:自监督的语音情感表征新范式
通过这种设计,学生网络可以逐步学习如何在不完整的输入条件下生成高质量的特征。学生的全局特征:学生网络的全局特征是通过额外的 chunk token(或其他形式的全局 token)计算的,这些 token 是专门设计用来捕获全局信息的。对比学习的框架:通过对比教师和学生的特征,学生网络可以不断优化自身的特征表示,使其在 mask 条件下的预测能力逐渐接近教师网络的无 mask 特征。教师的全局特征:教师网络的全局特征是通过所有的 token(帧级特征)计算的,没有额外的 token,也没有 mask 操作。
2025-03-14 17:45:29
455
原创 自动识别并选择剩余显存最大的GPU
注意: 必须在导入 torch 或调用任何 CUDA 操作之前,选择 GPU 并设置环境变量。否则CUDA将先于环境变量设置前被初始化,导致设置无效(比如本来设置的是GPU2可见,实际变成GPU0可见)。因此使用NVDIA的NVML(不会导致CUDA初始化)库来测算GPU的剩余显存。
2025-03-06 21:25:44
109
原创 Empathic Dialogues 数据集论文超详细解读
这项工作的贡献是:1) 发布了一个新的移情对话数据集作为一个新的基准;2) 实验表明,在这个数据集上的训练可以提高端到端的移情对话系统的性能。该数据集针对的是共情对话(共情回复)任务。图:共情回复的示例共情回复,即理解speaker话语中的隐含信息(如. feel proud),进而做出恰当的回复(如. 直接表示祝贺,而非追问对方),以提供对话者所期待的情绪反馈。共包含了超过25K段对话,每段对话都与32种不同的情感状态(Emotion)之一相关联,且每个对话都基于一个特定的情境(Situation)。图:
2025-01-13 21:22:26
1087
1
原创 kimi联网搜索tool的流式输出教程
最近,moonshot开放了kimi的联网搜索接口,但是官方所提供的使用代码并不支持流式输出,这导致该接口无法与现有工程兼容,为此,博主自研了一套流式输出方案。
2024-09-14 18:33:20
1849
1
原创 华工电信2021级微机课设优秀报告(内含代码)
基本性要求通过按键切换完成以下功能:显示北京时间;能够校准时间;使用汇编语言;时、分、秒之间或年、月、日间以小数点分隔;发挥性要求显示公历日期能够校准日期
2024-06-24 21:17:59
1079
原创 VHDL课程设计:基于FPGA开发板的时钟-日历-秒表-闹钟(按键控制+红外遥控),获课程最高分,附带源码。
一.实验目的:电子系统设计课程标志性内容的设计理解和综合运用,鼓励独立性设计和功能扩展的创新实践。二.功能要求:2.1基本性要求设计一个万年历,可以显示年、月、日、星期、小时、分钟和秒。支持采用按键调整时间。具备闰年计算和现实。具备闹钟提醒功能,以蜂鸣器作为闹钟的提醒。2.2发挥性要求具备运动秒表计数功能。年、月、日、星期相互切换,即设置年、月、日可以自动切换为星期。具备12和24小时的切换。三.方案考虑:3.1硬件方案。
2024-03-12 15:47:21
2506
5
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人