comli_cn
算法工程师,微信公众号:李歪理
展开
-
读完论文的总结与思考:LM-Cocktail: Resilient Tuning of Language Models via Model Merging
目标:LM-Cocktail 的提出是为了解决语言模型在经过fine-tune操作后的灾难性遗忘问题。特点:能够在模型合并的基础上,不断地适应已经经过精细微调(well-fine-tuned)的语言模型。原创 2024-09-27 20:36:38 · 425 阅读 · 0 评论 -
论文阅读:LM-Cocktail: Resilient Tuning of Language Models via Model Merging
预训练的语言模型不断进行微调,以更好地支持下游应用。然而,此操作可能会导致目标领域之外的通用任务的性能显著下降。为了克服这个问题,我们提出了LM Cocktail,它使微调后的模型在总体上保持弹性。我们的方法以模型合并(Model Merging)的形式进行,其中微调的语言模型通过加权平均与预训练的基础模型或其他领域的对等模型合并。尽管简单,LM Cocktail却出奇地有效:由此产生的模型在整个通用任务领域内拥有强大的性能,同时在其目标领域保持卓越的能力。原创 2024-09-27 19:53:29 · 539 阅读 · 0 评论 -
Embedding模型提升效果的方法之二:对比学习(SimCSE最先用在文本表征上)
SimCSE(simple contrastive sentence embedding framework),意为简单的对比句向量表征框架。SimCSE的核心就是使用了对比学习的方法,从而提升对句子的表征能力。如今的预训练语言模型都会存在各向异性的问题,所以需要通过对比学习来加以缓解。下文主要介绍对比学习SimCSE如何使用对比学习,以及为什么对比学习可以缓解各向异性的问题。对比学习就是以拉近相似数据,推开不相似数据为目标,有效地学习数据表征。给定一个pair对样本集合Dxixii1mD。原创 2024-09-06 19:41:57 · 393 阅读 · 0 评论 -
Embedding模型提升效果的方法之一:Whitening和pooling
各向异性是指在不同的方向上物理性质(表达含义)不同,各向同性是指不同的方向上物理性质相同。原创 2024-03-25 13:20:15 · 498 阅读 · 0 评论 -
论文阅读:BGE M3-Embedding——通过自知识提取实现多语言、多功能、多粒度的文本嵌入
本文提出了一种新的嵌入模型,称为M3嵌入,以其在多语言、多功能和多粒度方面的多功能性而著称。它可以支持100多种工作语言,在多语言和跨语言检索任务中具有最先进的性能。它可以同时执行嵌入模型的三种常见检索功能:密集检索、多向量检索和稀疏检索,为真实世界的IR应用提供了统一的模型基础。它能够处理不同粒度的输入,从短句到多达8192个token的长文档。M3-Embedding的有效训练包括以下技术贡献。我们提出了一种新的自我知识提取方法,其中来自不同检索功能的相关性得分可以被整合为教师信号,以提高训练质量。原创 2024-03-05 00:05:29 · 1517 阅读 · 0 评论 -
论文阅读:Making Large Language Models A Better Foundation For Dense Retrieval
密集检索需要学习区分性文本嵌入来表示查询和文档之间的语义关系。考虑到大型语言模型在语义理解方面的强大能力,它可能受益于大型语言模型的使用。然而,LLM是由文本生成任务预先训练的,其工作模式与将文本表示为嵌入完全不同。因此,必须研究如何正确地调整LLM,以便它们能够有效地初始化为密集检索的骨干编码器。在本文中,我们提出了一种新的方法,称为LLaRA(适用于密集检索的LLM),它作为LLM的后验自适应,用于密集检索应用。原创 2024-01-09 19:40:20 · 1209 阅读 · 1 评论 -
论文阅读:TRAIN SHORT, TEST LONG: ATTENTION WITH LINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION
自从transformer模型被提出以来,一个基本问题尚未得到回答:对于比训练中看到的更长的序列,模型如何在推理时实现外推。我们首先证明了外推可以通过简单地改变位置表示方法来实现,尽管我们发现目前的方法不允许有效的外推。因此我们引入了一个更加简单而且更高效的位置表示方法,即Attention with Linear Biases(ALiBi)。ALiBi不会将position embedding和word embedding相加,它使query-key的注意力得分产生偏差,惩罚与他们的距离成正比。原创 2023-12-15 17:20:28 · 343 阅读 · 0 评论 -
论文阅读:JINA EMBEDDINGS 2: 8192-Token General-Purpose Text Embeddings for Long Documents
如何增大embedding模型所能容纳的token数,从512个token扩大到8192个token原创 2023-11-26 17:32:54 · 491 阅读 · 0 评论 -
论文阅读:JINA EMBEDDINGS: A Novel Set of High-Performance Sentence Embedding Models
本文介绍了JINA EMBEDINGS嵌入模型集,表明与具有可比backbone的其他模型相比,可以在大幅减少训练数据量的同时,实现各种任务的竞争性能。通过对MTEB基准的广泛评估,我们表明,与使用更大但质量更低的数据集进行训练相比,采用明智的数据过滤技术可以提高性能。这些发现显著改变了范式,表明为嵌入任务训练大型语言模型可以用比以前假设的更少的数据进行,从而可能节省训练时间和资源。然而,我们承认当前方法和JINA EMBEDINGS集合性能的局限性。在二元组训练过程中,采样率的选择是基于启发式方法的。原创 2023-11-19 13:05:11 · 920 阅读 · 0 评论 -
RetroMAE论文阅读
在NLP常用的预训练模型通常是由token级别的任务进行训练的,如MLM和Seq2Seq,但是密集检索任务更倾向于句子级别的表示,需要捕捉句子的信息和之间的关系,一般主流的策略是自对比学习(self-contrastive learning)和自动编码(auto-encoding)。总的来说:输入的句子在进入Encoder之前先进行15%~30%的适度mask,经过Encoder之后生成Sentence embedding;原创 2023-11-11 18:49:36 · 758 阅读 · 0 评论 -
论文阅读:One Embedder, Any Task: Instruction-Finetuned Text Embeddings
现存的emmbedding应用在新的task或者domain上时表现会有明显下降,甚至在相同task的不同domian上的效果也不行。这篇文章的重点就是提升embedding在不同任务和领域上的效果,特点是不需要用特定领域的数据进行finetune而是使用instuction finetuning就可以在不同的任务和领域上表现得很好。新提出的模型被叫做INSTRUCTOR,进行instruction finetuning所用的数据集是MEDI。原创 2023-11-02 16:34:04 · 1054 阅读 · 0 评论 -
LLM-Embedder
训出一个统一的embedding模型LLM-Embedder,旨在全面支持LLM在各种场景中的检索增强。原创 2023-10-27 19:52:56 · 1553 阅读 · 0 评论