商汤开源大模型压缩工具LLMC！单卡压缩Llama 3.1 405B

原创已于 2024-10-09 18:09:58 修改 · 1.2k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-10-09 18:09:09 首次发布

青稞Talk 专栏收录该内容

80 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

关注公众号：青稞AI，第一时间学习最新AI技术
🔥青稞Talk主页：qingkelab.github.io/talks

大语言模型（LLM）的最新进展以其卓越的涌现能力和推理能力推动我们走向通用人工智能。然而，大量的计算和内存要求限制了广泛采用。量化是一种关键的压缩技术，可以通过压缩和加速 LLM 来有效缓解这些需求，尽管存在潜在的准确性风险。许多研究的目的是尽量减少与量化相关的精度损失。然而，它们的量化配置各不相同，无法公平比较。
在这里插入图片描述

来自北航、商汤、南洋理工等团队联合推出的大模型压缩工具与基准LLMC，一个即插即用的压缩工具包，以公平、系统地探索量化的影响。 LLMC 集成了数十种算法、模型和硬件，提供了从整数到浮点量化、从 LLM 到视觉语言（VLM）模型、从固定位到混合精度、从量化到稀疏化的高度可扩展性。

在这个多功能工具包的支持下，LLMC 基准测试涵盖了三个关键方面：校准数据、算法（三种策略）和数据格式，为用户的进一步研究和实践指导提供了新颖的见解和详细的分析。在使用 LLMC 对Llama 3.1进行量化压缩后，可以使得一张80G A100即可完成 Llama 3.1 405B 的校准和评估，从而实现以超低成本进行量化。

LLMC已开源，欢迎大家Star!

https://github.com/ModelTC/llmc

10月11日晚7点，青稞Talk 第25期，商汤科技算法实习生、香港科技大学准博士生黄雨石，将直播分享《LLMC:大语言模型的量化基准》。

Talk 信息

主讲嘉宾

黄雨石，本科毕业于北京航空航天大学，即将进入香港科技大学攻读计算机博士学位。研究方向为高效的AIGC模型，神经网络压缩与加速等，目前已在CVPR， EMNLP， ACM MM发表多篇论文。

主题提纲

LLMC：大语言模型的量化基准

1、大语言模型量化技术概述
2、大模型压缩工具 LLMC
3、基于 LLMC 的量化基准测试

校准数据
算法（三种策略）
数据格式

直播时间

10月11日（周五）19:00 - 20:00

参与方式

Talk 将在青稞·知识社区上进行，可以添加【ai_qingke113】对暗号：" 1011 "，报名进群！

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

AI算力推荐

Qwen3-VL-8B

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

图文对话

Qwen3-VL

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。