早读背代码-优快云博客

原创 M²IV：面向大型视觉-语言模型中高效且细粒度的多模态上下文学习

上下文学习的任务向量的细化

2025-07-24 17:04:40 949

CVPR 2025这个自建的测试集P²GB就直观地展示了这类难题：左图中的人物非常小，难以计数；右图中的“peer”一词微小且密集，难以识别。传统模型在这些任务上表现不佳。研究者提出了一个名为的框架。其核心思想是：不强求一个模型包揽一切，而是让大模型（LLM）扮演一个“”，当遇到自己不擅长的精细识别任务时，能够智能地调用外部的“”（Agents）来协助。“即插即用”意味着这些工具无需复杂的重新训练就能与大模型协作。P²G通过一个“在富文本问答（如DocVQA。

2025-06-21 19:35:54 919

原创 SymDPO：基于符号演示直接偏好优化的大型多模态模型上下文学习增强方法

SymDPO通过将答案符号化，打破了模型依赖文本模式的捷径，强制其在视觉和文本之间建立真正的逻辑联系，从而学会如何“看图说话”。

2025-06-20 21:12:48 1092

原创通过任务感知型演示推进大型视觉语言模型的多模态上下文学习

提示词工程，像生成token一样生成演示示例

2025-06-16 21:17:39 702

原创 AIM：让任何多模态大语言模型都能拥抱高效的上下文学习

多模态融合中，半路扔掉图像token

2025-06-04 17:21:02 711

原创多例上下文学习

多例上下文的越多越好？两个设计的提示词策略

2025-05-29 18:54:15 963

原创面向大型视觉语言模型的视觉上下文学习

把上下文的图片转换成文字描述

2025-05-28 19:02:08 816

原创 Link-Context Learning for Multimodal LLMs

CVPR 2024多模态大语言模型的链接上下文学习

2025-05-22 16:20:12 339

原创 What Makes Multimodal In-Context Learning Work?

是什么让多模态上下文学习发挥作用？

2025-05-12 21:40:14 803

原创 obsidian写数学公式捷径

obsidian写数学公式捷径

2025-05-12 12:53:17 528 1

原创 Multimodal sentiment analysis with unimodal label generation and modality decomposition

基于单模态标签生成与模态分解的多模态情感分析

2025-05-06 21:35:59 974 1

原创 A survey on multimodal large language models

多模态大语言模型综述

2025-04-25 21:34:15 1015

转载美团面了大概四十分钟，全程细节拷打

8.餐箱满了，但你又接单了，餐箱放不下了，出现了OutOf Box，如何解决?我说一般我会每次接单前检查下餐箱容量，有空间才会接新的单，又追这样会不会影响接单效率，如果被其它骑手抢单了怎么办?我说会打电话催促客户，客户一直不来的话就把餐放到地点，然后拍照走人，然后问我这样做有没有考虑过外卖丢失的情况，外卖丢失怎么办，完了，又掉进坑了。直接回答干等着了，然后感觉这样回答不太好，又补了句我可能会催催商家。做了道算法，一道贪心，给定单子信息，寻找最短配送路线，之前刷过，用c++10分钟a出来了。

2025-04-25 21:12:52 86

原创 Contextual Augmented Global Contrast for Multimodal Intent Recognition

上下文增强的全局对比用于多模态意图识别

2025-04-25 20:49:35 831

原创 GPT建筑能源管理自动化数据挖掘

本文提出了一个性能评估框架，探讨了GPT-4在建筑能源管理的三种数据挖掘场景中的潜力，即能源负荷预测、故障诊断、异常检测。也对其优势和局限性进行了全面的探讨。

2024-11-21 10:22:55 158

原创扩散模型的典型应用和难点现状

本笔记介绍了扩散模型的三个方面应用：自然语言生成，时序数据建模，多模态学习。针对各个方面介绍其国内外研究现状，实际应用的痛难点和相应大企业的解决方案。

2024-09-03 13:48:57 308

原创扩散模型综述

本篇综述架构：阐明扩散模型的设计考虑和先进方法，展示其在不同领域的应用，并指出未来的研究方向。

2024-08-31 07:49:30 294

原创扩散模型和U-Net

简单原理的学习。

2024-08-04 13:38:27 208

原创 DeepCache: Accelerating Diffusion Models for Free

飞书链接。

2024-08-04 13:36:31 151

原创扩散模型推理效率提升方法研究

跨模态大模型技术及AIGC应用的一个小分支。

2024-07-31 18:52:09 204

原创研究有利于增强大模型输出合规性的检测和改进技术

规范和正确的价值观。具体内容包括构建合规检测框架，对检测方法进行有效性验证，确保其在。实际应用中的可靠性与准确性；通过多领域、多层次的专家模型对检测框架及其结果进行评估并。反馈，不断优化性能。对大模型的“越狱”攻击进行针对性构建防御框架，抵御攻击导致大模型。研究大语言模型的输出内容合规检查方法，以确保大模型生成的内容符合伦理、法律、社会。准备集中看看sci二区以上论文。

2024-07-13 13:11:13 348

m0_53989653的博客

原创真正的多模态上下文学习需要关注视觉上下文

原创 LIVE：用于视觉问答的可学习上下文向量