- 博客(36)
- 收藏
- 关注
原创 AI大模型推理速度翻倍,Colossal-Inference开源发布
潞晨科技公司为此打造了高效易用的Colossal-Inference推理引擎,可显著提高AI大模型吞吐速度,以应对推理场景中的性能瓶颈和成本挑战。该推理引擎集成了分块显存管理与分页注意力算法,预设与自定义模型优化策略,连续批处理调度。预设中提供高性能手写算子, 第三方的算子加速库;而在预设之外,用户可以通过使用基础算子与模型层,自行搭建自定义模型优化策略,对指定模型进行优化。
2024-05-22 16:57:34
1160
原创 H800算力低至5.99元/卡时!抢鲜体验LLaMA3最佳实践就在潞晨云
潞晨云推出限时特惠,H800GPU算力低至5.99元/卡时,助力LLaMA3 8B和70B的训练与微调。
2024-04-24 15:12:31
1101
原创 Open-Sora全面开源模型参数和所有训练细节
不久前OpenAI Sora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队推出新的开源方案「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球AI热爱者共同推进视频创作的新纪元。先睹为快,我们先看一段由Colossal-AI团队发布的「Open-Sora 1.0」模型生成的都市繁华掠影视频。
2024-04-01 13:39:16
5154
原创 3140亿参数Grok-1推理加速3.8倍,高效易用的PyTorch+HuggingFace版来了
在单台8*H800 80GB服务器上,推理性能相比JAX、HuggingFace的auto device map等方法,Colossal-AI将在近期进一步推出对Grok-1在并行加速、量化降低显存成本等优化,欢迎持续关注。结合Colossal-AI在AI大模型系统优化领域的丰富积累,已迅速支持对Grok-1的张量并行。Grok-1一经发布便在开源社区引发广泛关注,并登上GitHub热度榜单世界第一。」,是当前参数量最大的开源大语言模型,并允许自由改动分发和商用。由马斯克旗下大模型公司 xAI 开源的。
2024-04-01 13:33:16
361
原创 李开复周鸿祎力荐!NUS尤洋教授新书《实战AI大模型》登顶京东图书榜
《实战AI大模型》全面覆盖了从基础理论到前沿实践的每一个方面。上线一周荣登京东图书榜人工智能书籍第一名。
2024-01-15 10:08:59
1251
原创 多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制
Colossal-AI团队开源了SwiftInfer,基于TensorRT实现了StreamingLLM,可以进一步提升大模型推理性能46%,为多轮对话推理提供了高效可靠的落地方案。
2024-01-15 09:58:02
1202
原创 万元预算打造高质量13B私有模型,Colossal-AI LLaMA-2 开源方案再升级
Colossal-AI 团队再次迭代中文LLaMA2,通过构建更为细致完善的数据体系,利用 25B token 的数据,打造了效果更佳的 13B 模型,并在主仓库开源相关权重。
2024-01-15 09:47:57
1369
原创 潞晨科技与澜舟科技签署战略合作协议,联手打造更高效的企业级大模型解决方案
潞晨科技与澜舟科技共同推动AI大模型在多个领域的工程化产业应用和落地,积极助力各产业的数字化转型。
2023-10-03 17:45:41
322
原创 荣获2023年度AIGC两项行业大奖,潞晨科技势头正劲,实力出圈
潞晨科技获“AIGC2023年度新势力企业”和“2023最值得关注的AIGC公司”双项荣誉。
2023-09-20 14:47:21
412
原创 使用Colossal-AI云平台精调私有GPT
Colossal-AI云平台重新定义了大型AI模型训练的领域,使复杂的模型训练变得简单。使用Colossal-AI云平台,无需繁琐的环境配置或深入研究复杂的加速方法——您只需点击几下即可实现模型训练显著的加速。最快短短3天内,您就可以拥有自己经过精调的大型模型。
2023-09-19 15:19:11
354
1
原创 潞晨科技与超级计算中心达成战略合作,Colossal-AI系统再添新翼助力AI大模型
近日,潞晨科技与某海外超级计算中心达成战略合作伙伴关系。本次合作旨在将海外超算中心的超级计算机和优质算力与潞晨科技基于Colossal-AI的大模型训练推理加速系统相结合,联手打造AI大模型最佳解决方案。同时,该合作还有助于建设潞晨科技新上线的智能化云平台,为云平台用户带来更充沛的算力保障。
2023-09-13 21:08:36
449
原创 700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级
作为全球规模最大、最活跃的大模型开发工具与社区,Colossal-AI再次迭代,提供开箱即用的 8 到 512 卡 LLaMA2 训练、微调、推理方案,对 700 亿参数训练加速 195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。
2023-09-04 19:42:12
291
原创 650亿参数大模型预训练加速38%,打造类LLaMA基础大模型最佳实践已开源
Colossal-AI 以LLaMA为例,提供开箱即用的650亿参数预训练方案,可提升训练速度38%,为大模型企业节省大量成本。
2023-07-18 16:10:48
290
原创 开源方案复现ChatGPT流程!1.62GB显存即可体验,单机训练提速7.73倍
开源方案复现ChatGPT流程!1.62GB显存即可体验,单机训练提速7.73倍
2023-02-15 13:33:55
4712
原创 硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
2023-01-04 14:12:23
742
原创 Colossal-AI助力,摩尔线程预训练语言模型MusaBert荣登CLUE榜单TOP10
Colossal-AI助力,摩尔线程预训练语言模型MusaBert荣登CLUE榜单TOP10
2022-12-19 13:56:23
343
原创 Diffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地
Diffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地
2022-11-09 12:16:15
903
原创 仅用笔记本电脑解析90%蛋白质,单卡推理序列长度破万!Colossal-AI开源方案让AlphaFold推理提速5倍,显存降低75%
仅用笔记本电脑解析90%蛋白质,单卡推理序列长度破万!Colossal-AI开源方案让AlphaFold推理提速5倍,显存降低75%
2022-10-28 09:44:48
898
原创 NVIDIA GPU加速AI落地,潞晨科技Colossal-AI助力大模型普适化
NVIDIA GPU加速AI落地,潞晨科技Colossal-AI助力大模型普适化
2022-10-26 16:03:48
869
原创 仅需1% Embedding 参数,硬件成本降低百倍,开源方案单GPU训练超大推荐模型
仅需1% Embedding 参数,硬件成本降低十倍,开源方案单GPU训练超大推荐模型
2022-10-19 12:16:10
581
原创 开源方案11倍加速蛋白质单体与复合物的结构预测!Colossal-AI 团队联合百图生科发布xTrimo Multimer
Colossal-AI 团队联合百图生科发布xTrimo Multimer
2022-08-23 15:28:17
973
转载 无缝支持Hugging Face社区,Colossal-AI低成本轻松加速大模型
无缝支持Hugging Face社区,Colossal-AI低成本轻松加速大模型
2022-07-13 12:46:11
597
转载 推理加速性能超越英伟达FasterTransformer 50%,开源方案打通大模型落地关键路径
伴随着深度学习模型规模的指数型增长,常见的单卡推理解决方案已然无法满足前沿AI大模型的推理需求。例如1750亿参数的GPT-3模型,仅仅是加载模型参数就需要数百GB的存储空间,远超单个GPU的容纳能力。因此,对于AI大模型使用多卡并行的方式进行推理已成为必然选择。针对现有推理系统的这一痛点,Colossal-AI团队以“高性能、高可用、可伸缩”的理念,深入单实例多设备推理场景,开发了大模型推理系统Energon-AI,在性能和易用性上兼具优势:仅需对现有项目进行极少量修改,用户便可完成自定义大模型的
2022-05-31 18:00:04
1056
转载 使用Colossal-AI分布式训练BERT模型
前言最近几周在研究分布式训练中的模型并行技术。为了直观感受和加深记忆,阅读相关论文的同时,动手用开源的大模型训练框架Colossal-AI逐步改写出了一个数据并行+模型并行的BERT来帮助理解。在这里想介绍一下借助Colossal-AI提供的零冗余优化器、张量并行、流水线并行等技术一点点缩小BERT模型内存占用的过程。文章内容:大规模模型对分布式训练带来了什么挑战?什么是Colossal-AI?用Colossal-AI提供的分布式技术训练BERT模型数据并行零冗余优化器张量并行流水
2022-05-12 09:46:05
5279
1
原创 助力药物研发,低成本加速AlphaFold训练从11天到67小时,11倍推理加速——开源解决方案FastFold
开源方案FastFold将AlphaFold总体训练时间从11天减少到67小时,且总成本更低,在长序列推理中也实现9.3 ∼ 11.6倍提升。
2022-03-18 10:40:29
2018
原创 大规模并行AI训练系统 Colossal-AI 十四问
受优快云副总裁SoftwareTeacher老师的邀请,我们针对大家对于Colossal-AI所关心的问题进行了解答。
2022-03-08 10:58:25
3091
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人