- 博客(24)
- 收藏
- 关注
原创 多模态大语言模型中推理能力的即插即用定位
CVPR 2025这个自建的测试集P²GB就直观地展示了这类难题:左图中的人物非常小,难以计数;右图中的“peer”一词微小且密集,难以识别。传统模型在这些任务上表现不佳。研究者提出了一个名为的框架。其核心思想是:不强求一个模型包揽一切,而是让大模型(LLM)扮演一个“”,当遇到自己不擅长的精细识别任务时,能够智能地调用外部的“”(Agents)来协助。“即插即用”意味着这些工具无需复杂的重新训练就能与大模型协作。P²G通过一个“在富文本问答(如DocVQA。
2025-06-21 19:35:54
919
原创 SymDPO:基于符号演示直接偏好优化的大型多模态模型上下文学习增强方法
SymDPO通过将答案符号化,打破了模型依赖文本模式的捷径,强制其在视觉和文本之间建立真正的逻辑联系,从而学会如何“看图说话”。
2025-06-20 21:12:48
1092
原创 Multimodal sentiment analysis with unimodal label generation and modality decomposition
基于单模态标签生成与模态分解的多模态情感分析
2025-05-06 21:35:59
974
1
转载 美团面了大概四十分钟,全程细节拷打
8.餐箱满了,但你又接单了,餐箱放不下了,出现了OutOf Box,如何解决?我说一般我会每次接单前检查下餐箱容量,有空间才会接新的单,又追这样会不会影响接单效率,如果被其它骑手抢单了怎么办?我说会打电话催促客户,客户一直不来的话就把餐放到地点,然后拍照走人,然后问我这样做有没有考虑过外卖丢失的情况,外卖丢失怎么办,完了,又掉进坑了。直接回答干等着了,然后感觉这样回答不太好,又补了句我可能会催催商家。做了道算法,一道贪心,给定单子信息,寻找最短配送路线,之前刷过,用c++10分钟a出来了。
2025-04-25 21:12:52
86
原创 Contextual Augmented Global Contrast for Multimodal Intent Recognition
上下文增强的全局对比用于多模态意图识别
2025-04-25 20:49:35
831
原创 GPT建筑能源管理自动化数据挖掘
本文提出了一个性能评估框架,探讨了GPT-4在建筑能源管理的三种数据挖掘场景中的潜力,即能源负荷预测、故障诊断、异常检测。也对其优势和局限性进行了全面的探讨。
2024-11-21 10:22:55
158
原创 扩散模型的典型应用和难点现状
本笔记介绍了扩散模型的三个方面应用:自然语言生成,时序数据建模,多模态学习。针对各个方面介绍其国内外研究现状,实际应用的痛难点和相应大企业的解决方案。
2024-09-03 13:48:57
308
原创 研究有利于增强大模型输出合规性的检测和改进技术
规范和正确的价值观。具体内容包括构建合规检测框架,对检测方法进行有效性验证,确保其在。实际应用中的可靠性与准确性;通过多领域、多层次的专家模型对检测框架及其结果进行评估并。反馈,不断优化性能。对大模型的“越狱”攻击进行针对性构建防御框架,抵御攻击导致大模型。研究大语言模型的输出内容合规检查方法,以确保大模型生成的内容符合伦理、法律、社会。准备集中看看sci二区以上论文。
2024-07-13 13:11:13
348
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅