自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 真正的多模态上下文学习需要关注视觉上下文

增强对视觉信息的关注

2025-08-05 19:37:39 677

原创 LIVE:用于视觉问答的可学习上下文向量

可学习的偏移向量

2025-08-05 19:32:49 1037

原创 M²IV:面向大型视觉-语言模型中高效且细粒度的多模态上下文学习

上下文学习的任务向量的细化

2025-07-24 17:04:40 949

原创 面向多模态任务的模仿上下文学习

ICL的本质可以看作是注意力偏移

2025-06-26 21:36:29 729

原创 多模态大语言模型中推理能力的即插即用定位

CVPR 2025这个自建的测试集P²GB就直观地展示了这类难题:左图中的人物非常小,难以计数;右图中的“peer”一词微小且密集,难以识别。传统模型在这些任务上表现不佳。研究者提出了一个名为的框架。其核心思想是:不强求一个模型包揽一切,而是让大模型(LLM)扮演一个“”,当遇到自己不擅长的精细识别任务时,能够智能地调用外部的“”(Agents)来协助。“即插即用”意味着这些工具无需复杂的重新训练就能与大模型协作。P²G通过一个“在富文本问答(如DocVQA。

2025-06-21 19:35:54 919

原创 SymDPO:基于符号演示直接偏好优化的大型多模态模型上下文学习增强方法

SymDPO通过将答案符号化,打破了模型依赖文本模式的捷径,强制其在视觉和文本之间建立真正的逻辑联系,从而学会如何“看图说话”。

2025-06-20 21:12:48 1092

原创 通过任务感知型演示推进大型视觉语言模型的多模态上下文学习

提示词工程,像生成token一样生成演示示例

2025-06-16 21:17:39 702

原创 AIM:让任何多模态大语言模型都能拥抱高效的上下文学习

多模态融合中,半路扔掉图像token

2025-06-04 17:21:02 711

原创 多例上下文学习

多例上下文的越多越好?两个设计的提示词策略

2025-05-29 18:54:15 963

原创 面向大型视觉语言模型的视觉上下文学习

把上下文的图片转换成文字描述

2025-05-28 19:02:08 816

原创 Link-Context Learning for Multimodal LLMs

CVPR 2024多模态大语言模型的链接上下文学习

2025-05-22 16:20:12 339

原创 What Makes Multimodal In-Context Learning Work?

是什么让多模态上下文学习发挥作用?

2025-05-12 21:40:14 803

原创 obsidian写数学公式捷径

obsidian写数学公式捷径

2025-05-12 12:53:17 528 1

原创 Multimodal sentiment analysis with unimodal label generation and modality decomposition

基于单模态标签生成与模态分解的多模态情感分析

2025-05-06 21:35:59 974 1

原创 A survey on multimodal large language models

多模态大语言模型综述

2025-04-25 21:34:15 1015

转载 美团面了大概四十分钟,全程细节拷打

8.餐箱满了,但你又接单了,餐箱放不下了,出现了OutOf Box,如何解决?我说一般我会每次接单前检查下餐箱容量,有空间才会接新的单,又追这样会不会影响接单效率,如果被其它骑手抢单了怎么办?我说会打电话催促客户,客户一直不来的话就把餐放到地点,然后拍照走人,然后问我这样做有没有考虑过外卖丢失的情况,外卖丢失怎么办,完了,又掉进坑了。直接回答干等着了,然后感觉这样回答不太好,又补了句我可能会催催商家。做了道算法,一道贪心,给定单子信息,寻找最短配送路线,之前刷过,用c++10分钟a出来了。

2025-04-25 21:12:52 86

原创 Contextual Augmented Global Contrast for Multimodal Intent Recognition

上下文增强的全局对比用于多模态意图识别

2025-04-25 20:49:35 831

原创 GPT建筑能源管理自动化数据挖掘

本文提出了一个性能评估框架,探讨了GPT-4在建筑能源管理的三种数据挖掘场景中的潜力,即能源负荷预测、故障诊断、异常检测。也对其优势和局限性进行了全面的探讨。

2024-11-21 10:22:55 158

原创 扩散模型的典型应用和难点现状

本笔记介绍了扩散模型的三个方面应用:自然语言生成,时序数据建模,多模态学习。针对各个方面介绍其国内外研究现状,实际应用的痛难点和相应大企业的解决方案。

2024-09-03 13:48:57 308

原创 扩散模型综述

本篇综述架构:阐明扩散模型的设计考虑和先进方法,展示其在不同领域的应用,并指出未来的研究方向。

2024-08-31 07:49:30 294

原创 扩散模型和U-Net

简单原理的学习。

2024-08-04 13:38:27 208

原创 DeepCache: Accelerating Diffusion Models for Free

飞书链接。

2024-08-04 13:36:31 151

原创 扩散模型推理效率提升方法研究

跨模态大模型技术及AIGC应用的一个小分支。

2024-07-31 18:52:09 204

原创 研究有利于增强大模型输出合规性的检测和改进技术

规范和正确的价值观。具体内容包括构建合规检测框架,对检测方法进行有效性验证,确保其在。实际应用中的可靠性与准确性;通过多领域、多层次的专家模型对检测框架及其结果进行评估并。反馈,不断优化性能。对大模型的“越狱”攻击进行针对性构建防御框架,抵御攻击导致大模型。研究大语言模型的输出内容合规检查方法,以确保大模型生成的内容符合伦理、法律、社会。准备集中看看sci二区以上论文。

2024-07-13 13:11:13 348

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除