vllm+llama模型出现＜|eot_id|＞并且一直输出至最大长度问题的解决方案

最新推荐文章于 2025-03-30 20:23:14 发布

johnteller

最新推荐文章于 2025-03-30 20:23:14 发布

阅读量940

点赞数 7

分类专栏：大模型学习文章标签： llama 语言模型自然语言处理

本文链接：https://blog.youkuaiyun.com/johnteller/article/details/143865202

版权

大模型学习专栏收录该内容

2 篇文章

订阅专栏

问题描述

本人在使用vllm的openai接口部署llama3以及llama2时，出现了下面的模型输出结果：

可以看到上面的输出存在两点问题：

1. 输出中包含模型的eos_token_id信息；

2. 模型接着上一段开始自行组织多轮对话直到max_tokens.

解决方案

很简单，在openai的response中设置stop为相应模型的eos_token_id即可：

后记

因为学艺不精出现的一个弱智问题，特此记录。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

johnteller

关注关注

7
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用llama index时出现[nltk_data] Error loading stopwords: ＜urlopen error [Errno 111]的解决方案

weixin_43178406的博客

04-16

7万+

本文主要介绍了使用llama index时出现[nltk_data] Error loading stopwords:

llama factory运行deepspeed zero3产生stage3_prefetch_bucket_size Input should be a valid integer的解决方案

最新发布

qzhn_的博客

03-30

822

在 Python 中，通过 Ollama 的 options 参数，你可以灵活调整模型的行为，满足不同场景需求。常用参数包括 temperature（随机性）、num_predict（输出长度）、top_p 和 top_k（采样范围）等。在使用本地大模型（如通过 Ollama 运行的模型）时，可以设置一些参数来控制模型的行为，例如温度（temperature）、最大输出长度（max tokens）、停止条件（stop sequences）等。返回的信息中可能包含模型的默认参数配置，帮助你了解可用的选项。

大模型部署利器 -- vLLM(别总用着好，不知道他哪好啊)

weixin_46034279的博客

11-03

2412

大型语言模型（LLM）的高吞吐量服务需要一次处理足够多的请求。然而，现有的系统很难做到这一点，因为每个请求的键值缓存（KV 缓存）内存都很大，并且动态地增长和收缩。当管理效率低下时，碎片和冗余复制会严重浪费此内存，从而限制批处理大小。为了解决这个问题，我们提出了，这个注意力算法的灵感来自经典的虚拟内存和操作系统中的分页技术。在此基础上，我们构建了 vLLM，这是一个 LLM 服务系统，它实现了（1）KV 缓存内存的近零浪费，以及（2）在请求内部和请求之间灵活共享 KV 缓存，以进一步减少内存使用。

大模型vllm推理速度性能

努力给自己想要的

09-30

2155

使用vllm进行部署推理，部署参数如下：并发性能测试构建数据的特点：测试性能结果：

（2024-08）国内常见文本大模型输出Token限制统计

小小晓晓阳的博客

08-28

741

模型输出token限制非模型上下文输出限制，为了保证输出效果和输出效率，一般都相对较短。

llama2 , llama3, llama3.1 中提示（prompt）的模板

Harry的博客

05-30

1万+

注意：换行符 (0x0A) 是提示格式的一部分，为了在示例中清晰起见，它们已表示为实际的新行。基本模型支持文本补全，因此任何未完成的用户提示（没有特殊标签）都会提示模型完成它。单个消息的具有可选的 system prompt。为了在示例中清晰起见，它们已表示为实际的新行。系统提示（prompt）是可选的。换行符 (0x0A) 是提示格式的一部分，该模型期望提示末尾的助手标题开始完成它。系统提示以及用户和助手之间的多轮对话。可在此处找到生成此提示格式的代码。可在此处找到生成此提示格式的代码。

使用 LLaMA Factory 微调 Llama-3 中文对话模型

张伟的专栏

04-22

2022

请申请一个免费 T4 GPU 来运行该脚本。

AI大模型Llama 3系统级提示词格式Prompt Format

ibrahim的博客

12-02

1796

Llama 3的提示词格式Prompt Format和四种角色system，user，ipython，assistant

sheng的学习笔记-ollama本地部署LLaMa3大模型

coldstarry的专栏

06-13

1149

史上最强开源AI大模型——Meta的LLaMa3一经发布，各项指标全面逼近GPT-4。它提供了8B和70B两个版本，8B版本最低仅需4G显存即可运行，可以说是迄今为止能在本地运行的最强LLM。虽然LLaMa3对中文支持不算好，但HuggingFace上很快出现了各种针对中文的微调模型，本文将从零开始介绍如何在本地运行发布在HuggingFace上的各种LLaMa3大模型。

钓鱼大模型，让它输出不该输出的东西

我的备忘录

08-16

1077

这个小发现只局限于Qwen模型，其他模板的喜欢都可以试试。能发现这个问题也是基于对LLM本身训练规则的思考，而且只要模板换了，或者厂家把user assistant 分隔符这种token换成闭源非开放的，马上就好了。试了一下，llama3.1也被这招攻破了。而且继续被攻破的输出接着提问，它也会继续输出涩情信息。

Meta Llama 3 模型来了！现已在 Amazon SageMaker JumpStart 中可用

亚马逊云科技专栏

04-19

346

今天，我们很高兴地宣布，Meta Llama 3 基础模型可通过 Amazon SageMaker JumpStart 进行部署和推理运行。Llama 3 模型是一系列预训练和微调的生成式文本模型。在本文中，我们将介绍如何通过 Amazon SageMaker JumpStart 发现和部署 Llama 3 模型。01Meta Llama 3 是什么？Llama 3 有两种参数尺寸——8B 和 7...

开源最强模型 Llama3 发布：看看羊驼提示词

zphyix的博客

04-19

3851

Meta 推出的 Llama 3 是一款非常有实力的产品。它坚持基本原理，在坚实的系统和数据工作上花费了大量时间，探索了长期训练模型的极限。此外，400B 模型也非常令人期待，它可能是第一个 GPT-4 级开源版本。我想很多人会要求更多的上下文长度。

基于LLama3、Langchain,Chroma 构建RAG

weixin_41870426的博客

05-05

4377

使用Llama3 Langchain和ChromaDB创建一个检索增强生成（RAG）系统。这将允许我们询问有关我们的文档（未包含在训练数据中）的问题，而无需对大型语言模型（LLM）进行微调。在使用RAG时，首先要做一个检索步骤，从一个特殊的数据库中提取任何相关的文档，本文使用的是《欧盟人工智能法案》文本。

Speckly：基于Speckle文档的RAG智能问答机器人

FrenzyTechAI的博客

07-31

1033

首先，我们定义一个 GraphState 类来表示图的状态，该状态包含三个关键属性：input、generation 和 documents。其中，input 属性存储用户输入的问题，generation 属性存储大语言模型根据输入生成的答案，documents 属性存储相关文档列表。"""表示图的状态。question: 问题generation: LLM 生成documents: 文档列表"""input: str。

函数调用：在 xLAM 上微调 Llama 3得益于 QLoRA，速度快且内存高效

2401_85233349的博客

07-23

1272

函数调用允许 LLM 可靠地连接到外部工具。它支持与外部 API 交互。例如，通过将 LLM 与网络搜索引擎和计算器连接，可以通过函数调用从互联网检索信息并执行数学运算。

开源模型 Function Call 方案梳理

2401_85377976的博客

08-29

2155

在本文中，我们梳理了开源模型 Function Calling 能力的相关信息，包括采用的 chat template，function call 训练方案等。涉及模型 LlaMa 3.1， Mistral Large 2，glm-4-9b-chat，Qwen 2。

01-03