仙人球小熊-优快云博客

原创 MM-role 首个多模态角色扮演框架（ICLR）

广泛的评估结果表明 MMRole-Agent 的性能有所提高，并突出了在制定 MRPA 方面的主要挑战，强调需要加强多模态理解和角色扮演的一致性。为了弥补这一差距，我们引入了多模态角色扮演代理 (Multimode role-Play Agent，MRPA) 的概念，并提出了一个全面的框架 MMRole，用于开发和评估，该框架包括。此外，我们提出了一个健壮的评估方法，MMRole-Eval，包括八个跨三个维度的指标，其中奖励模型被设计为评分 MRPA 与构建的 ground-truth 数据进行比较。

2025-03-25 20:48:53 676

原创（专栏）Beats：结合声学分词器的音频（非语音）预训练框架

近年来，自监督学习（SSL）在语音和音频处理领域取得了巨大成功。例如，Wav2vec 2.0 、HuBERT、BigSSL、WavLM 和 data2vec 等语音SSL模型在各种任务中表现出色，尤其是在低资源场景下。与语音不同，，这给通用音频建模带来了巨大挑战（为此，SS-AST和 AudioMAE 等音频SSL模型被提出用于通用音频分类任务，证明了SSL不仅能够为语音，也能为非语音信号学习鲁棒的听觉表示。

2025-03-18 10:46:06 623

原创 Wav2vec 2.0

这种连续与离散特征的结合是wav2vec 2.0模型成功的关键因素之一，使其能够在极少量标注数据的情况下仍然取得出色的语音识别性能。：在wav2vec 2.0中，离散特征作为对比学习任务中的目标，模型需要预测被掩码时间步的正确离散表示.：连续特征是由特征提取器(CNN编码器)直接输出的浮点数向量表示，保留了原始音频的丰富信息。：通过量化模块将连续特征映射到有限的码本条目集合中，形成离散的表示。：连续特征保留更多细节信息，而离散特征提供更抽象、更稳定的表示。连续的语音特征与离散的语音特征的区别。

2025-03-15 22:24:59 87

原创 R1-Omni: 第一个基于RLVR+GRPO的可解释全模态情感识别

例如，R1-V已应用于几何推理和视觉计数等任务，使用RLVR训练的MLLMs不仅展示出强大的推理能力，还在领域内测试中达到与监督微调(SFT)相当的性能，同时在分布外(OOD)评估中显著优于SFT模型。具体来说，R1-Omni模型实现了43.00%的UAR和44.69%的WAR，超过了SFT模型29.33%的UAR和30.75%的WAR性能。由于多模态数据的固有挑战，如视频和音频标记内的因果关系比文本标记弱，以及缺乏对推理内容的显式监督，在模型的推理过程中可能会出现幻觉。

2025-03-15 22:23:17 1125

原创（专栏）emotion2vec：自监督的语音情感表征新范式

通过这种设计，学生网络可以逐步学习如何在不完整的输入条件下生成高质量的特征。学生的全局特征：学生网络的全局特征是通过额外的 chunk token（或其他形式的全局 token）计算的，这些 token 是专门设计用来捕获全局信息的。对比学习的框架：通过对比教师和学生的特征，学生网络可以不断优化自身的特征表示，使其在 mask 条件下的预测能力逐渐接近教师网络的无 mask 特征。教师的全局特征：教师网络的全局特征是通过所有的 token（帧级特征）计算的，没有额外的 token，也没有 mask 操作。

2025-03-14 17:45:29 455

原创自动识别并选择剩余显存最大的GPU

注意：必须在导入 torch 或调用任何 CUDA 操作之前，选择 GPU 并设置环境变量。否则CUDA将先于环境变量设置前被初始化，导致设置无效（比如本来设置的是GPU2可见，实际变成GPU0可见）。因此使用NVDIA的NVML（不会导致CUDA初始化）库来测算GPU的剩余显存。

2025-03-06 21:25:44 109

原创从表征视角看VLLM--总讲（万字专栏，持续更新）

从表征视角看VLLM系列专栏总结

2025-02-18 16:38:59 1252

原创从表征视角看VLLM（4）——Inter-VL系列模型

从表征视角看VLLM（4）——Inter-VL系列模型

2025-02-18 16:38:03 858

原创从表征视角看VLLM（3）——Qwen-VL系列模型

从表征视角看VLLM（3）——Qwen-VL系列模型

2025-02-18 16:30:42 659

原创从表征视角看VLLM（2）——LLAVA系列模型

从表征视角看VLLM（2）——LLAVA系列模型

2025-02-18 16:29:59 628

原创从表征视角看VLLM（1）——BLIP系列模型

从表征视角看VLLM（1）——BLIP系列模型

2025-02-18 16:28:26 1036

原创 Empathic Dialogues 数据集论文超详细解读

这项工作的贡献是：1) 发布了一个新的移情对话数据集作为一个新的基准；2) 实验表明，在这个数据集上的训练可以提高端到端的移情对话系统的性能。该数据集针对的是共情对话（共情回复）任务。图：共情回复的示例共情回复，即理解speaker话语中的隐含信息（如. feel proud），进而做出恰当的回复（如. 直接表示祝贺，而非追问对方），以提供对话者所期待的情绪反馈。共包含了超过25K段对话，每段对话都与32种不同的情感状态（Emotion）之一相关联，且每个对话都基于一个特定的情境（Situation）。图：

2025-01-13 21:22:26 1087 1

weixin_63482830的博客

原创 MM-role 首个多模态角色扮演框架（ICLR）

原创（专栏）Beats：结合声学分词器的音频（非语音）预训练框架

原创 Wav2vec 2.0

原创 R1-Omni: 第一个基于RLVR+GRPO的可解释全模态情感识别

原创（专栏）emotion2vec：自监督的语音情感表征新范式

原创自动识别并选择剩余显存最大的GPU

原创从表征视角看VLLM--总讲（万字专栏，持续更新）

原创从表征视角看VLLM（4）——Inter-VL系列模型

原创从表征视角看VLLM（3）——Qwen-VL系列模型

原创从表征视角看VLLM（2）——LLAVA系列模型

原创从表征视角看VLLM（1）——BLIP系列模型

原创 Empathic Dialogues 数据集论文超详细解读

原创 kimi联网搜索tool的流式输出教程

原创华工电信2021级微机课设优秀报告（内含代码）

原创 Gradio的Blocks开发实战2：实现按键间的动态切换效果

原创 Gradio的Blocks开发实战1：实现图片的切换显示

原创 VHDL课程设计:基于FPGA开发板的时钟-日历-秒表-闹钟（按键控制+红外遥控），获课程最高分，附带源码。

基于VHDL的课程设计-完整报告

基于VHDL的课程设计-源码

空空如也