
基础数学
文章平均质量分 77
背太阳的牧羊人
管它什么真理无穷,进一寸有一寸的欢喜。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
bnb_4bit_compute_dtype = “float16“ 这里的float16和4-bit是什么关系
`float16` 和 `4-bit` 都是用来压缩模型大小和减少计算负担的,但它们的用途和效果不同:- **`float16`** 仍然保留了一定的数值精度,适合用来训练和推理较为复杂的神经网络。- **`4-bit`** 是更加极端的压缩,通常用于推理阶段,以进一步减少存储和计算的开销。模型会在计算时丧失更多的精度,但在某些情况下,这种牺牲是可以接受的,尤其是在硬件支持低精度计算时。原创 2025-01-16 11:15:09 · 898 阅读 · 0 评论 -
4-bit 的表示方式并不是只能表示整数,而是它可以表示有限数量的 离散值,这些值包括整数和小数。问题的关键在于,4-bit 只能表示16个离散的可能值,这些值的精度非常低,所以无法精确表示像 3.1
float16 和 4-bit 是不同的数值表示方式,它们之间并没有直接的等价关系,但它们都属于 低精度数值表示 的范畴,用于减少计算和存储资源的消耗。我们可以把它们想象成“精度较低的数字表示”,但是它们的精度和使用场景有所不同。原创 2025-01-16 11:13:35 · 851 阅读 · 0 评论 -
为什么需要configuring bitsandbytes for 4-bit quantization
"Configuring bitsandbytes for 4-bit quantization" 是指在使用 bitsandbytes 这个库时,设置模型参数的位数为 4-bit 来进行量化处理。量化是指将原本高精度的浮点数数据(通常是 32 位或 16 位浮点数)转化为低精度的整数数据(如 4 位整数),这样可以大幅减少模型存储空间和计算资源的需求,特别是在硬件资源受限的情况下,比如在边缘设备或者移动端部署时。原创 2025-01-16 09:36:22 · 685 阅读 · 0 评论 -
Paged Optimizers分页优化器是什么,用通俗易懂的话解释
分页优化器通过把优化器的一部分内存(比如动量、方差)放到CPU内存中,减少了GPU内存的占用,只在需要时才把它们从CPU内存转移到GPU内存。这样做能够减轻GPU的内存负担,提高内存使用效率,特别是在训练大模型时。优化器的状态(例如动量和方差)是优化器用来帮助模型训练的“记忆”信息,它们在训练过程中不断更新,帮助模型更快、更稳定地收敛到最优解。我们可以通过动量和方差来更好地理解这一过程。动量:优化器“记住”之前更新的方向,并带着惯性继续走,避免频繁改变方向,提高效率。方差。原创 2025-01-15 14:22:58 · 730 阅读 · 0 评论 -
QLoRA是对LoRA的进一步扩展,它通过量化技术来减少模型的内存需求,这里的量化技术是什么意思,用通俗易懂的话解释,不懂你打我
QLoRA是对LoRA(低秩适应)的扩展,它在LoRA的基础上引入了量化技术。QLoRA将模型中的权重从高精度的浮点数量化为低精度的整数(比如4位整数),从而减少了模型占用的内存空间,还提高了计算效率。而且,QLoRA还能通过“反量化”技术,在计算时将低精度的权重重新转化为高精度,确保模型的性能和准确度不受太大影响原创 2025-01-15 11:11:43 · 559 阅读 · 0 评论 -
通过将模型权重的矩阵表示为低秩矩阵,可以减少需要调整的参数数量,通俗易懂的解释,不懂你爬网线打我
用更贴近实际生活的例子来说明“低秩矩阵”是如何减少需要调整的参数数量的。原创 2025-01-15 10:57:26 · 1552 阅读 · 0 评论 -
什么是低秩矩阵,用通俗易懂的话解释,不懂你爬网线过来打我
通过将模型权重矩阵表示为低秩矩阵,可以减少需要调整的参数数量,原因在于低秩矩阵的结构本身就比高秩矩阵更“紧凑”,即它们需要的独立参数更少。具体来说,低秩矩阵的结构可以通过减少模型的自由度(独立参数的数量)来达到这一效果。我们可以通过一个简单的例子来解释这个过程。原创 2025-01-15 10:51:33 · 2480 阅读 · 0 评论