Falcon 40B——全球排名第一的AI模型现在已免费授权

阿联酋TII的Falcon40B语言模型成为全球首个免费开源的大型AI模型,成本更低、运行更快,旨在促进技术创新和知识共享,增强阿布扎比在全球AI领域的领导地位。

前言

随着阿布扎比进入竞技场,机器人大战正在升温,最近宣布了自己的大型语言模型Falcon,以与 OpenAI、DeepMind 和谷歌等公司竞争。

在斯坦福大学的外部性能评估中,Falcon 比 GPT-3 以及 DeepMind 和谷歌的模型更便宜、运行速度更快。

image.png

阿布扎比 - 阿拉伯联合酋长国:2023 年 5 月 31 日- 技术创新研究所 (TII) 的 Falcon 40B 是阿联酋领先的大型开源人工智能模型,现免收商业和研究使用的版税费用,以响应全球对人工智能包容性地访问的需求。

在Hugging Face的大型语言模型排行榜上排名全球第一的Falcon 40B,胜过了Meta的LLaMA和Stability AI的StableLM等竞争对手。根据宽松的Apache 2.0软件许可证,Falcon 40B最终用户可以访问该软件涉及的任何专利。Apache 2.0确保了安全和可用性,并建立了一个有效的治理模型,为强大的开源软件提供支持。

image.png

 Falcon 40B 的排名,请访问:https://huggingface.co/spaces/HuggingFaceH4/openllmleaderboard

TII 不受限制地使用 Falcon 40B 凸显了其致力于技术创新和知识共享、培养协作生态系统并加强阿联酋作为全球 AI 领导者的地位。此外,它还反映了阿联酋致力于突破界限,塑造人工智能在推动积极变革中发挥关键作用的未来。

TII对Falcon 40B的无限制访问凸显了其对技术创新和知识共享的承诺,促进了协作生态系统的形成,增强了阿联酋作为全球人工智能领导者的地位。此外,这也反映了阿联酋致力于推动边界并塑造未来,在其中人工智能发挥重要作用以推动积极变革的承诺。

通过开源、免费部署Falcon 40B,公共和私营部门实体可以获得效率提升,例如更快的项目启动、更快的迭代、更灵活的软件开发流程、强大的社区驱动支持和更轻松的许可证管理等。

TII旨在在全球开发人员、研究人员和企业之间培育一个充满活力的协作、创新和知识共享生态系统。此举促进了透明性、包容性和人工智能领域加速进展,为其在各行业和领域的应用打开多样化机遇。

TII的AI跨中心部门主任Ebtesam Almazrouei博士表示:“取消Falcon 40B版税费用促进了一个凝聚社会的包容性技术发展。我们致力于利用技术使人类团结一致并未未来-proof我们的世界。”

二、Falcon 40B 介绍

Falcon LLM 是一种基础大型语言模型 (LLM),具有 400 亿个参数,在 1 万亿个令牌上进行了训练。TII 现已发布 Falcon LLM – 40B 型号。

该模型仅使用了 GPT-3 训练计算的 75%、Chinchilla 的 40% 和 PaLM-62B 的 80%。

image.png

三、Falcon LLM 是如何开发的?

Falcon 具备什么优势

  • Falcon 是使用自定义工具构建的,并利用独特的数据管道,可以从网络数据中提取高质量的内容,并将其用于训练自定义代码库,独立于 NVIDIA、Microsoft 或 HuggingFace 的作品。

  • 特别关注大规模数据质量。众所周知,LLM 对其训练数据的质量很敏感,因此在构建数据管道时格外小心,该管道既可以扩展到数万个 CPU 内核以进行快速处理,又可以使用广泛的网络从网络中提取高质量的内容。过滤和重复数据删除。

  • Falcon 的架构针对性能和效率进行了优化。将高质量数据与这些优化相结合,Falcon 仅在训练计算预算的 75% 上就明显优于 GPT-3,并且在推理时需要五分之一的计算。

  • Falcon 与 DeepMind、Google 和 Anthropic 的最先进 LLM 的性能相媲美。

Falcon 是如何训练的

  • Falcon 是一个 400 亿参数的自回归解码器模型,在 1 万亿个令牌上训练。在两个月的时间里,它在 AWS 上的 384 个 GPU 上进行了训练。

  • 预训练数据是从网络的公共抓取中收集的,以构建 Falcon 的预训练数据集。使用 CommonCrawl 的转储,经过大量过滤(以删除机器生成的文本和成人内容)和重复数据删除后,组装了近 5 万亿个标记的预训练数据集。

  • 为了扩展 Falcon 的能力,这个数据集随后被扩展到一些精选的来源,例如研究论文和来自社交媒体的对话。

  • 最后,Falcon 的性能根据 EAI Harness、HELM 和 BigBench 等开源基准进行了验证。

Falcon 的主要应用场景

  • 生成创意文本并解决复杂问题。

  • 用于聊天机器人、客户服务运营、虚拟助理、语言翻译、内容生成和情绪分析。

  • Falcon 预见了广泛的用例,尽管我们对减少和自动化“重复”工作的应用程序最为兴奋。

  • Falcon 将帮助阿联酋的公司和初创企业提高效率,简化内部流程,让员工有时间专注于重要的事情。

  • 在个人层面,嵌入 Falcon 的聊天机器人将能够在日常生活中为用户提供帮助。

四、快速体验Falcon AI

如果没有服务器条件,可以在免费的 Google Colab 上与 Falcon LLM 进行人工智能问答,访问以下地址:

https://colab.research.google.com/drive/1RAEkxDRRjWU6T8dV8grR1imrrHV4Idj2?usp=sharing#scrollTo=N6KzsIXEkAfP

如果你对这篇文章感兴趣,而且你想要了解更多关于AI领域的实战技巧,可以关注「技术狂潮AI」公众号。在这里,你可以看到最新最热的AIGC领域的干货文章和案例实战教程。image.png

<think>好的,我现在需要回答用户关于Falcon-40B模型运行所需内存的问题。首先,用户提到了他们之前提供的四个引用,我需要结合这些信息来给出准确的回答。 根据引用[1]和引用[2],模型大小和内存需求与参数精度有关。比如,降低精度可以减少内存占用,但可能影响性能。引用[2]还提到像OPT-175B这样的模型需要大量显存,甚至超过某些GPU的容量,这提示我需要考虑不同精度下的内存需求差异。 用户之前的问题是关于在Ollama上安装Falcon模型,尤其是40B版本。在之前的回答中,我提到Falcon-40B需要至少24GB显存。现在用户想更详细地了解具体的内存需求,可能需要区分不同精度(如FP32、FP16、INT8)下的内存使用情况。 首先,我需要计算Falcon-40B的参数数量。40B代表400亿参数。每个参数在FP32精度下占4字节,所以总内存为40B * 4 bytes = 160GB。但实际运行时,除了参数内存,还需要考虑激活值、优化器状态等,这会显著增加需求。例如,训练时可能需要4倍参数内存,即640GB,但推理时可能只需要参数和部分激活内存。 不过,用户可能更关注推理时的需求。引用[3]提到HBM(显存)的大小为40GB,而像NVIDIA A100这样的GPU有40GB或80GB版本。如果使用FP16精度,参数内存减半为80GB,可能需要多张GPU。或者使用量化技术如INT8,进一步减少到40GB,可能单卡运行,但根据引用[1],量化可能影响性能但有限。 用户提供的引用[2]提到预测器内存占用问题,但这里可能更多是模型参数本身。结合这些信息,我需要给出不同精度下的内存需求,并建议硬件配置,比如多卡或量化方法。 最后,确保回答结构清晰,分点说明,并参考之前的引用,比如降低精度(引用1)和显存限制(引用3),同时给出实际部署的建议,如使用多GPU或量化。</think>### Falcon-40B 模型内存需求详解 #### **基础计算原理** Falcon-40B 包含约 **400 亿参数**,内存需求取决于参数精度: - **FP32(全精度)**:每个参数占 4 字节 $$40 \times 10^9 \times 4 \text{ bytes} = 160 \text{ GB}$$ - **FP16(半精度)**:每个参数占 2 字节 $$40 \times 10^9 \times 2 \text{ bytes} = 80 \text{ GB}$$ - **INT8(8 位量化)**:每个参数占 1 字节 $$40 \times 10^9 \times 1 \text{ byte} = 40 \text{ GB}$$ #### **实际部署需求** 1. **最低显存要求** - **推理**:需加载完整模型参数 + 激活值内存(约增加 20-30%) - FP16 模式:至少需要 **100-110GB 显存**(需多卡并行,如 2×A100 80GB) - INT8 量化:可降至 **50-60GB**(单卡 A100 80GB 或双卡 RTX 4090 24GB*2)[^1] - **训练**:需额外存储梯度与优化器状态,显存需求为参数的 **4-5 倍**(约 320-400GB) 2. **硬件匹配方案** | 配置类型 | 显存需求 | 推荐硬件 | |----------------|----------------|------------------------------| | FP16 单卡推理 | 100-110GB | NVIDIA A100 80GB(需部分卸载)| | FP16 多卡推理 | 80GB(分片) | 2×NVIDIA A100 80GB | | INT8 单卡推理 | 50-60GB | NVIDIA A100 80GB | 3. **显存优化技术** - **量化压缩**:通过 INT8/4-bit 降低精度(性能损失约 2-5%[^1]) - **模型分片**:使用 `tensor_parallel_size` 在多 GPU 间分配参数 - **内存卸载**:将部分权重暂存至 CPU 内存(牺牲推理速度) #### **典型错误与验证** - **OOM(内存不足)**:若出现 `CUDA out of memory`,需检查: ```bash nvidia-smi # 确认显存占用分布 ``` - **性能监控**:使用 `vLLM` 或 `DeepSpeed` 工具分析内存分配: ```python from vLLM import LLMEngine engine = LLMEngine(model="falcon-40b", quantization="int8") print(engine.memory_summary()) ``` --- ### 进阶参考:显存与计算速度的权衡 根据引用[3],HBM(显存)带宽(1.5TB/s)远低于 SRAM(19TB/s),因此: - **多卡分片**可提升带宽利用率 - **量化**既能减少显存占用,又能降低带宽压力(但需平衡精度损失) --- --相关问题-- 1. Falcon-40B 的 INT4 量化能减少多少显存占用? 2. 如何在多 GPU 上实现 Falcon-40B 的并行推理? 3. 显存带宽如何影响大语言模型的生成速度?
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术狂潮AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值