探索未来计算：OnnxStream——轻量级模型运行库

郦岚彬Steward

于 2024-05-09 09:45:45 发布

阅读量348

点赞数 4

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00039/article/details/138599980

探索未来计算：OnnxStream——轻量级模型运行库

OnnxStream Stable Diffusion XL 1.0 Base on a Raspberry Pi Zero 2 (or in 298MB of RAM) 项目地址: https://gitcode.com/gh_mirrors/on/OnnxStream

项目简介

OnnxStream 是一个专注于内存效率的开源项目，旨在在资源有限的设备上运行大型机器学习模型，如 Raspberry Pi Zero 2。这个项目的核心在于其独特的设计理念，即通过分离推理引擎和权重提供器（WeightsProvider），实现对内存使用的极致优化。特别是针对Stable Diffusion 1.5 和其变体，OnnxStream 展现出了强大的性能。

项目技术分析

OnnxStream 集成了多种高级特性：

解耦设计：将推理引擎与权重提供器分离开来，允许自定义加载和缓存策略。
动态量化：支持8位无符号动态量化，有效减少内存占用。
静态量化：可选择性地进行W8A8静态量化，以适应不同场景需求。
注意力切片和量化：在不影响结果质量的前提下，降低内存开销。
多线程操作：尽管运算顺序保持不变，但所有核心操作都是并行化的。
XNNPACK集成：利用谷歌的XNNPACK库加速部分关键操作。

应用场景

在低功耗设备上实时运行复杂的AI任务，比如Raspberry Pi Zero 2上的图像生成。
构建对内存要求严格的嵌入式应用，尤其是在物联网(IoT)领域。
研究高效内存管理策略，为其他大型模型的微缩化提供参考。

项目特点

内存节约：相比于OnnxRuntime，OnnxStream 可以大幅降低内存使用，例如在处理 Stable Diffusion 1.5 的 UNET 模型时，内存消耗减少高达55倍。
定制化：通过自定义 WeightsProvider 实现不同的加载和预加载策略。
高度优化：引入了诸如注意力切片、量化等技术，兼顾性能和内存使用。
易用性：项目结构清晰，仅依赖一个主实现文件和一个头文件，便于理解和扩展。

结语

无论是对于开发者还是研究者，OnnxStream 都是一个值得一试的开源工具，它展示了如何在资源有限的环境中有效地运行复杂模型。借助其创新的设计和优化技术，即使在最基础的硬件平台上也能实现令人惊叹的AI应用。如果你正在寻找一个能够挑战极限的轻量级推理库，或者希望了解如何在小内存设备上部署大型模型，那么 OnnxStream 绝对不容错过。

OnnxStream Stable Diffusion XL 1.0 Base on a Raspberry Pi Zero 2 (or in 298MB of RAM) 项目地址: https://gitcode.com/gh_mirrors/on/OnnxStream

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

郦岚彬Steward 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。