Multimodal Intention Knowledge Distillation from Large Language Models

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量280

点赞数 3

CC 4.0 BY-SA版权

分类专栏： LLM Daily Distilling Multimodal 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/138678127

LLM Daily 同时被 3 个专栏收录

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Multimodal

164 篇文章

订阅专栏

Distilling

34 篇文章

订阅专栏

Miko是一个多模态意图知识提取框架，用于理解社交媒体帖子的意图。它结合大型语言模型（LLM）和多模态大型语言模型（MLLM），处理文本和图像信息，生成意图知识。通过对公开社交媒体数据集的应用，Miko构建了一个包含1372K个意向的知识库，并通过注释和评价验证了其生成知识的质量。此外，Miko在讽刺检测任务中展示了下游应用的优势。

本文是LLM系列文章，针对《Miko: Multimodal Intention Knowledge Distillation from Large
Language Models for Social Media Commonsense Discovery》的翻译。

摘要

社交媒体已经成为一种无处不在的工具，可以与他人联系、随时了解新闻、表达意见和寻找娱乐。然而，理解社交媒体帖子背后的意图仍然具有挑战性，因为这些意图具有隐含性和常识性，需要对文本和图像进行跨模态理解，以及存在诸如标签、拼写错误的单词和复杂缩写等嘈杂信息。为了应对这些挑战，我们提出了Miko，这是一个多模态意图知识提取框架，它协同利用大型语言模型（LLM）和多模态大型语言模式（MLLM）来揭示用户的意图。具体来说，我们使用MLLM来解释图像，使用LLM来从文本中提取关键信息，并最终再次指示LLM生成意图。通过将Miko应用于公开的社交媒体数据集，我们构建了一个意向知识库，其中包含137287篇帖子中的1372K个意向。我们进行了两阶段的注释，以验证生成的知识的质量，并对广泛使用的LLM用于意图生成的性能进行基准测试。我们进一步将Miko应用于讽刺检测数据集，并提取学生模型，以展示应用意图知识的下游优势。