
论文
文章平均质量分 96
ㄣ知冷煖★
优快云人工智能领域优质创作者、阿里云专家博主、腾讯云开发者内容共创官、腾讯云开发者社区2024年度创作之星、百林哲教育专家、全国3D建模大赛国奖获得者、省奖若干、Kaggle竞赛银牌若干、BPAA算法大赛模型鉴赏师、在职算法工程师,计算机硕士。
展开
-
【论文阅读】A Survey on Multimodal Large Language Models
这篇综述系统梳理了多模态模型的技术栈,从基础架构到前沿应用,并指出当前瓶颈(如幻觉、长上下文)和解决思路。其核心价值在于(1)方法论:三阶段训练(预训练→指令微调→对齐)成为主流范式。(2)开源生态:LLaVA、MiniGPT-4等开源模型推动社区发展。(3)跨学科应用:在医疗、机器人等领域的渗透展示通用潜力。原创 2025-05-17 19:24:54 · 1196 阅读 · 3 评论 -
【论文阅读】MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models
《MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models》介绍了一种名为MineAgent的模块化框架,旨在利用多模态大语言模型(MLLMs)解决遥感矿物勘探中的关键挑战。传统矿物勘探方法依赖人工专家分析遥感图像,耗时且难以规模化。MineAgent通过分阶段推理和层次化通信,解决了多图像推理和领域知识缺乏的问题。框架包括判断模块和决策模块,通过半结构化信息交换实现高效协作。原创 2025-05-15 16:02:58 · 822 阅读 · 2 评论 -
REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS【大模型的协同推理】
文章提出了ReAct方法,将推理(如链式思维提示)和行动(如行动计划生成)集成到大型语言模型(LLMs)中的研究,这在以前的研究中通常是分开探讨的。原创 2024-04-30 17:34:47 · 1638 阅读 · 5 评论 -
《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思维链】
思维链,是一系列中间推理步骤,可以显著提高大语言模型执行复杂推理的能力。原创 2024-04-19 18:46:11 · 1511 阅读 · 3 评论 -
Bi-SimCut: A Simple Strategy for Boosting Neural Machine Translation 论文笔记
Bi-SimCut是一种简单但有效的训练策略,以提高神经机器翻译(NMT)的性能,它包括两个过程:双向预训练和单向微调,这两个过程都使用了SimCut, 这是一种简单的正则化方法,强调原始语句和经过Cutoff的语句的输出分布之间的一致性。SimCut并不是一种新的方法,而是Cutoff的简化版本。原创 2023-03-29 16:57:27 · 1177 阅读 · 3 评论 -
R-Drop: Regularized Dropout for Neural Networks 论文笔记(介绍,模型结构介绍、代码、拓展KL散度等知识)
R-Drop——神经网络的正则化DropOut,Dropout是一种强大且广泛应用的深度神经网络的调整训练的技术。尽管效果很好,但由于Dropout所带来的随机性导致了训练和实际之间的不一致性。在本文中,我们引入了一种简单的一致性训练策略来正则化dropout,即R-Drop,它强制dropout生成的不同子模型的输出分布彼此一致。具体来说,对于每个训练样本,R-Drop最小化dropout采样的两个子模型输出分布之间的双向kl -散度。理论分析表明,R-Drop降低了上述不一致性。原创 2023-02-16 15:40:56 · 1977 阅读 · 4 评论 -
tensorflow.keras常用模块介绍
最近的心情就像窗外的天气一样阴沉。。。原创 2022-12-06 18:40:22 · 2195 阅读 · 0 评论 -
机器翻译——基于注意力机制的seq2seq结构
该项目是一个基于注意力机制的seq2seq结构的由英语和西班牙语互译的项目,一共有11万对句子,文章中训练使用到的数据对为3万,可以根据个人机器配置灵活调整。seq2seq结构介绍:seq2seq模型是以编码(Encode)和解码(Decode)为代表的架构方式,seq2seq模型是根据输入序列X来生成输出序列Y,在翻译,文本自动摘要和机器人自动问答以及一些回归预测任务上有着广泛的运用。以encode和decode为代表的seq2seq模型,encode意思是将输入序列转化成一个固定长度的向量,decode原创 2022-06-14 16:08:55 · 1239 阅读 · 0 评论