
多模态增强学习
文章平均质量分 92
JackCrum
这个作者很懒,什么都没留下…
展开
-
【论文精读】| KBS2023-TMBL-多模态情感分析系列文章解读
多模态情感分析是人机交互研究的重要方向,它可以通过同时分析文本、视频和声音特征来准确识别个体的情绪状态。尽管当前的情绪识别算法使用多模态融合策略表现良好,但仍然存在两个关键挑战。第一个挑战是在融合之前有效提取模态不变和模态特定的特征,这需要不同模态之间的深层特征交互。第二个挑战涉及区分模态特征之间的高级语义关系的能力。为了解决这些问题,我们提出了一种新的模态绑定学习框架,并重新设计了 Transformer 模型的内部结构。我们提出的模态绑定学习模型通过结合双模态和三模态绑定机制解决了第一个挑战。原创 2024-05-13 19:13:39 · 6845 阅读 · 3 评论 -
【具身智能】前沿思考与总结(DALL-E-Bot & TinyBot)
DALL-E-Bot:将网络规模的扩散模型引入机器人探索机器人网络规模的工作。DALL-E-Bot 使机器人能够,首先推断这些对象的文本描述,然后生成代表这些对象的自然、类人排列的图像,最后根据该图像对对象进行物理排列目标图像。我们证明,使用 DALL-E 可以实现,无需任何进一步的示例安排、数据收集或训练。由于 DALL-E 的网络规模预训练,DALL-E-Bot 是完全自主的,并且不限于一组预定义的对象或场景。原创 2023-08-06 12:30:57 · 607 阅读 · 0 评论 -
【具身智能】前沿思考与总结(谷歌&微软)
只需要告诉机器人它要做的任务是什么,机器人就会理解需要做的事情,拆分任务动作,生成应用层控制指令,并根据任务过程反馈修正动作,最终完成人类交给的任务。整个过程基本不需要或者仅需少量人类的介入和确认,基本实现了机器人自主化运行,无需掌握机器人专业操作知识的机器人应用工程师介入。原创 2023-08-06 11:24:10 · 716 阅读 · 0 评论 -
【具身智能】系列论文解读(CoWs on PASTURE & VoxPoser & Relational Pose Diffusion)
为了使机器人普遍有用,即使没有对域内数据进行昂贵的导航训练(即执行零样本推理),它们也必须能够找到人们描述的任意对象(即由语言驱动)。我们在统一的环境中探索这些功能:语言驱动的零样本对象导航(L-ZSON)。受到图像分类开放词汇模型最近成功的启发,我们研究了一个简单的框架,CLIP on Wheels (CoW),使开放词汇模型无需微调即可适应此任务。为了更好地评估 L-ZSON,我们引入了 PASTURE 基准,该基准考虑寻找不常见的对象、由空间和外观属性描述的对象以及相对于可见对象描述的隐藏对象。原创 2023-08-06 10:58:54 · 1136 阅读 · 0 评论 -
【论文解读系列】MLLM研究综述
多模态大语言模型(Multimodal Large Language Model, MLLM)是近年来兴起的一个新的研究热点,它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的突发能力,如基于图像编写故事和无ocr数学推理,在传统方法中是罕见的,这表明了人工通用智能的潜在途径。在本文中,我们旨在追踪和总结最近的进展mllm。首先,我们提出了传销营销的概念,并对其相关概念进行了描述。原创 2023-07-02 18:07:42 · 1784 阅读 · 0 评论 -
【论文系列解读】LLM构建通用视觉(SUR-Adapter)&声音模型(Tango)
声音和图像领域,大一统的模型!使用LLM进行引导原创 2023-06-25 11:44:33 · 548 阅读 · 0 评论 -
AOBERT:用于多模态情感分析的多模态合一BERT
在这项研究中,情绪分析和情绪检测是使用三种模式进行的:文本、视觉和语音。XT∈RdT×LXV∈RdV×LXS∈RdS×LXT∈RdT×LXV∈RdV×LXS∈RdS×L其中 XT、XV 和 XS 分别指的是文本、视觉和语音。这些是长度为 L 的向量,维度分别为 dT、dV 和 dS。因为 L 是输入大小的固定长度,所以小于 L 的某些输入将包含零填充以适应大小。原创 2023-04-25 23:42:40 · 3390 阅读 · 2 评论 -
IPM2023-PXMixer-多模态情感分析系列文章解读
多模态情感分析旨在判断互联网用户在各种社交媒体平台上上传的多模态数据的情感。(1)然而,一方面,现有研究侧重于文本、音频和视觉等多模态数据的融合机制,而忽略了文本与音频、文本与视觉的以及,导致情感分析存在偏差。(2)另一方面,多模态数据带来与情感分析,影响融合效果。原创 2023-04-24 22:32:45 · 1452 阅读 · 2 评论 -
多模态情感识别-MISA: baseline解读
不同模态数据分布的异质性使得模态融合的难度较高原创 2023-04-23 19:25:57 · 4329 阅读 · 7 评论