LLM2Vec论文阅读笔记

在这里插入图片描述

  • 这是篇LLM论文,用decoder-like的LLM去提取embedding
  • 文章认为,decoder-like的LLM在text embedding task表现不优的一大原因就是其casual attention mechanism,其实就是mask的问题。所以只要对现有的decoder-only LLM进行如下三步改进,就将pre-trained decoder-only LLM into a universal text encoder:
    • 双向注意力,就是取消掉MSA的mask,用全1的mask 矩阵
    • masked next token prediction (MNTP),就是用类似BERT的预训练方式,给一个序列,挖掉中间某几个单词,让模型根据剩下的单词去预测这几个单词,但是些许不同的是,我要预测第i个单词并非使用第i个token的输出来算loss,而是用它前一个token的输出来算loss,也就是i-1.这就是next token。但是我感到奇怪的是,这样不是把模型变成encoder-like 了吗,那模型还能保持原来的性能吗。。
    • unsupervised contrastive learning。即使用了上述两部,模型离embedding模型还差一点,因为模型还是在学word-level的特征,相比encoding模型在next sentence prediction任务上学sentence-level的特征,decoder模型缺乏这样的训练。用的是这样的训练方式,就是在random drop out掉一个句子的一些单词,同一个句子,drop out 两次,forward 两次,得到两个embedding,然后这两个embedding 作为positive sample算相似度,不同句子之间的作为negative sample算相似度。
    • sentence embedding 的获得方式文章做了消融试验,一种是EOS pooling,一种是mean pooling,一种是weighted mean pooling,mean pooling效果比较好。weighted mean pooling用的是GPT sentence embeddings for semantic search这篇文章中的方法,EOS pooling就是直接用最后一个token作为从这个句子提取的embedding。也就是说,如果不特别设计提取embedding的方法,naive的使用EOS的token和对token进行average pooling这两种方法中,average pooling效果更好
      在这里插入图片描述
### LLM2Vec 和 DeepSeek 技术介绍 #### LLM2Vec 项目概述 LLM2Vec 是一种利用大型语言模型 (LLMs) 提取高质量文本嵌入的技术。通过将预训练的语言模型转化为强大的文本编码器,LLM2Vec 能够提供优于传统方法的文本表示能力[^1]。 该技术的核心在于如何有效地从现有的大规模语言模型中提取有用的特征向量。具体来说,研究者们发现即使不经过额外微调,仅使用原始 token 表征也能获得良好的性能;而进一步采用 MNTP 或 SimCSE 训练则能显著提高表现力[^4]。 ```python from transformers import AutoModel, AutoTokenizer def get_llm2vec_embedding(text): tokenizer = AutoTokenizer.from_pretrained('meta-llama/Llama-2-7b-hf') model = AutoModel.from_pretrained('meta-llama/Llama-2-7b-hf') inputs = tokenizer(text, return_tensors="pt") outputs = model(**inputs) # Extract the last hidden states as embeddings embeddings = outputs.last_hidden_state.mean(dim=1).detach().numpy() return embeddings ``` #### DeepSeek 项目简介 DeepSeek 是由幻方旗下的深度求索公司在今年早些时候发布的一个高性能多模态大模型系列版本之一[v2,v3]。它不仅支持纯文本处理任务,还能很好地应对图像和其他形式的数据输入需求[^3]。 对于想要深入了解其内部机制特别是 MLA(cache)实现细节的同学而言,建议直接查阅官方文档或源代码仓库获取最准确的信息。值得注意的是,在实际应用过程中,DeepSeek 展现出了优异的效果,并且与 MQA 类似但又有所区别。 ```bash # Clone DeepSeek repository from GitHub git clone https://github.com/huawei-noah/deepseek.git cd deepseek pip install -r requirements.txt ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值