
论文极速读
文章平均质量分 94
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
-
MeCo——给预训练数据增加源信息,就能减少33%的训练量并且提升效果
最近看到一篇预训练的文章,只在每条预训练数据的前面加上一个源信息(即是该信息的URL信息),就能加速训练(+33%)并且提升下游任务的效果,本文进行阅读笔记。如有谬误请见谅并联系指出,本文遵守。关键字:大模型预训练、源信息、加速训练、提升效果∇\nabla∇知乎:https://www.zhihu.com/people/FesianXu微信公众号:机器学习杂货铺3号店最佳阅读体验见: https://fesianxu.github.io/2025/01/11/MeCo-20250111/原创 2025-01-11 12:06:10 · 852 阅读 · 0 评论 -
CatLIP,加速2.7倍!采用分类损失的CLIP水准的预训练视觉编码器
传统的CLIP采用对比学习的方式进行预训练,通常需要汇聚多张节点的多张设备的特征向量以进行打分矩阵的计算,训练速度通常都较慢,本文介绍一种采用传统的BCE损失进行多标签分类的方式,在提速2.7倍的同时,能达到CLIP的模型性能原创 2024-11-09 15:14:17 · 1128 阅读 · 1 评论 -
解耦多模态大模型中的视觉语义压缩与视觉语义摘要
在多模态大模型中,视觉连接器大致可以分为压缩型和非圧缩型,其中BLIP2提出的Q-Former [1] 是压缩型视觉连接器的代表工作之一。在论文 [2] 中,作者对Q-Former的作用提出了质疑和分析,本文进行笔记,希望对读者有所帮助。原创 2024-11-06 00:48:25 · 871 阅读 · 0 评论 -
SigLIP——采用sigmoid损失的图文预训练方式
CLIP中的infoNCE损失是一种对比性损失,在SigLIP这个工作中,作者提出采用非对比性的sigmoid损失,能够更高效地进行图文预训练原创 2024-09-08 22:24:03 · 3523 阅读 · 0 评论 -
LexLIP——图片搜索中的多模态稀疏化召回方法
最近笔者在回顾&笔记一些老论文,准备整理下之前看的一篇论文LexLIP,其很适合在真实的图片搜索业务场景中落地,希望笔记能给读者带来启发。原创 2024-07-28 18:58:51 · 1308 阅读 · 0 评论 -
【论文极速读】 可微分检索索引(Differential Search Index, DSI)
最近从朋友处得知了DSI这个概念,所谓的可微分检索索引DSI,就是通过语言模型将检索过程中的索引和召回阶段端到端地融合在一起,输入query模型直接输出docid,笔者今日抽空看了下原论文,简单笔记下,希望对各位读者有所帮助。原创 2024-07-14 22:52:38 · 989 阅读 · 0 评论 -
基于CLIP特征的多模态大模型中的视觉短板问题
如今的大多数多模态大模型,其视觉输入侧采用的视觉编码器,都是依照CLIP的训练方式,采用大规模对比学习进行训练的。在论文 [1] 中,作者发现CLIP特征具有某些视觉短板,从而导致基于此的MLLM也受到了影响。作者观察到,在一些简单直接(不需要复杂推理)的问题上,MLLM似乎并不能很好解决...原创 2024-07-06 18:17:05 · 1472 阅读 · 1 评论 -
【论文极速读】 LLava: 指令跟随的多模态大语言模型
如何将已预训练好的大规模语言模型(LLM)和多模态模型(如CLIP)进行融合,形成一个多模态大语言模型(MLLM)是目前很火热的研究课题。本文将要介绍的LLava是一个经典的工作,其采用了指令微调的方式对MLLM进行训练,笔者在此笔记,希望对诸位读者有所帮助。原创 2024-05-19 23:05:34 · 2685 阅读 · 0 评论 -
【论文极速读】引入复读负样本,一种打破LLM复读问题的方法
最近工作里面遇到了LLM复读的问题,去翻了下论文,看到有一篇尝试通过引入负样本解决复读问题的工作,有所启发,在此简单介绍下,希望对大家有所帮助。如有谬误请见谅并联系指出,本文遵守。∇\nabla∇联系方式:知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号:机器学习杂货铺3号店LLM的复读问题,一般有几种级别的复读,如下所示字粒度的复读:User: 你喜欢北京么?AI: 北京是中国的首都,有很多名胜古迹,如长城,故宫,天坛等,我十分喜欢欢欢欢欢欢欢欢欢欢欢欢…原创 2024-05-12 19:16:36 · 1064 阅读 · 0 评论 -
【论文极速读】 指令微调BLIP:一种对指令微调敏感的Q-Former设计
之前笔者在[1]中曾经介绍过BLIP2,其采用Q-Former的方式融合了多模态视觉信息和LLM,本文作者想要简单介绍一个在BLIP2的基础上进一步加强了图文指令微调能力的工作——InstructBLIP,希望对诸位读者有所帮助。原创 2024-03-31 20:57:32 · 1303 阅读 · 0 评论 -
Kosmos-1: 通用接口架构下的多模态大语言模型
kosmos 构建一个通用接口的多模态大语言模型原创 2024-03-03 11:23:06 · 1503 阅读 · 0 评论 -
【论文极速读】MetaLM:一种融合因果语言模型和非因果语言模型的方法
最近我在恶补一些经典的LLM工作,之前也精读过MetaLM这个工作但是没有及时笔记,现在已经有些遗忘了,因此在过年期间复习了下,在此笔记希望对诸位有所帮助。原创 2024-02-19 19:39:42 · 1223 阅读 · 0 评论 -
【论文极速读】Flamingo:一种交织图文的视觉语言大模型方法
Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了(2022年),之前粗略读过没来得及及时总结,本次过年笔者重新细读了论文,发现其在50多页的论文中有着不少细节,本文对该工作进行读后感笔记。原创 2024-02-17 16:59:53 · 11486 阅读 · 1 评论 -
BLIP2——采用Q-Former融合视觉语义与LLM能力的方法
大规模语言模型(Large Language Model,LLM)是当前的当红炸子鸡,展现出了强大的逻辑推理,语义理解能力,而视觉作为人类最为主要的感知世界的手段,亟待和LLM进行融合,形成多模态大规模语言模型(Multimodal LLM, MLLM),BLIP-2这篇文章利用已经充分训练好的图片编码器和LLM模型,通过Q-Former巧妙地融合在一起,在引入少量待学习参数的同时,取得了显著的效果。本文将对BLIP2进行笔记和笔者个人感想纪录,希望对诸位读者有所帮助。原创 2024-02-03 18:45:31 · 4486 阅读 · 1 评论 -
【论文极速读】视频检索中的模态均衡方法
多模态落地过程中的模态不均衡问题原创 2023-12-07 13:10:57 · 378 阅读 · 0 评论 -
【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题
评估多模态LLM模型的灾难性遗忘现象原创 2023-10-07 20:39:56 · 826 阅读 · 0 评论 -
【论文极速读】IMAGEBIND —— 通过图片作为桥梁桥联多模态语义
image bind,充分利用多模态异构数据~原创 2023-09-30 10:52:18 · 906 阅读 · 0 评论 -
【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式
Prompt tuning是一种高效的LLM下游任务适配方式原创 2023-09-29 15:18:51 · 2315 阅读 · 0 评论 -
【论文极速读】VQ-VAE:一种稀疏表征学习方法
VQ-VAE进行视觉稀疏化原创 2023-02-26 10:57:58 · 1143 阅读 · 0 评论 -
【论文极速读】ERNIE VIL 2.0,多模态模型的一种多视角预训练范式
ERNIE VIL 2.0 多视角多模态的预训练方法原创 2022-12-03 13:23:15 · 618 阅读 · 0 评论