VLLM代码解读 | VLLM Hack 2

Undefined游侠

已于 2024-07-25 08:52:51 修改

阅读量321

点赞数 3

文章标签：深度学习

于 2024-07-25 07:50:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_19859865/article/details/140678371

版权

回忆一下昨天所看的代码，通过LLMEngine,我们将输入的sequence转换成了sequence这个对象，包含了下列信息。

Sequence(seq_id=0, status=WAITING, num_blocks=1)

然后基于sequence，我们又生成了sequenceGroup这个对象。这个对象用于保管基于同一prompt生成的sequences，可以想象，当进行beam search的时候，我们需要保证sequence的平行宇宙，对应确实需要更好的数据结构去维护它。

在完成了sequencegroup的生成后，我们将它放置到scheduler中。

        self.scheduler.add_seq_group(seq_group)

具体对应的是添加到waiting的deque中。需要注意的是，scheduler中维护了三个队列，分别为waiting，running，swapped

        # Sequence groups in the WAITING state.
        # Contain new prefill or preempted requests.
        self.waiting: Deque[SequenceGroup] = deque()
        # Sequence groups in the RUNNING state.
        # Contain decode requests.
        self.running: Deque[SequenceGroup] = deque()
        # Sequence groups in the SWAPPED state.
        # Contain decode requests that are swapped out

最低0.47元/天解锁文章

Undefined游侠

博客等级

码龄11年

91
原创

527
点赞

530
收藏

394
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Resnet20代码review
Sarah_Wang2: 您好，想请问下代码中的_make_layer是怎样的呀，谢谢
数据结构与算法2 哈希表
优快云-Ada助手: 算法技能树或许可以帮到你：https://edu.youkuaiyun.com/skill/algorithm?utm_source=AI_act_algorithm
EfficientAI Lab：大模型AWQ量化
weixin_46656063: 为什么做这个Scale操作呢？其实是为了减少量化损失，对于普通的权重量化，损失一般在于Round操作的舍入误差，一般浮点数的舍入值在0~0.5，平均误差就是0.25。而先scale再量化的公式如下，一般来说在对应的salient weight row乘上因子s并不会影响weight的极值，那么，而Round误差一般也是不变的，那么下式的Err相比于原先的Err会多出一个1/s，那么量化误差就变低。
Swin-Transformer论文阅读
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
VIT论文阅读： A Image is Worth 16x16 Words
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。