为什么开源LLama?背后的逻辑是什么?

部署运行你感兴趣的模型镜像

如果我们相信未来比今天更好,坚信自己生活在一个好地方,所要做的便是认识到未来时代的特征和规律。把握住一些不变的道理,使用正确的方法,做那些能够不断让自己获得可叠加式进步的事情,这样便能立于不败之地。—吴军

最近关注两个方向,也是公司重点发展和投资的两个方向,一是数据资产入表,二是大模型及应用。前段时间写数据资产入表相关内容更多一些,利用假期,把最近一些大模型相关的信息做一个整理,给大家做一个分享。

一、为什么开源LLama?*背后的商业逻辑与赚钱之道*

近日,Meta公司发布了迄今为止功能最强大的公开可用的语言大模型(LLM)——LLaMA3。

这一版本在庞大的15万亿个Token数据上进行预训练,提供了8B和70B两种参数规模,以满足不同用户场景的广泛需求。LLaMA3在各种行业基准测试中均取得了最先进的性能。

值得一提的是,除了现有的8B和70B参数规模的模型外,LLaMA3还有一个更为庞大的400B参数模型正在训练中。这预示着LLaMA3在未来将拥有更加强大的能力和更广泛的应用前景。

首先,我们来看看Meta为什么要花如此巨大的资源来开发并开源LLaMA3。

据悉,Meta为了这个项目动用了16000颗GPU,加上长期的测试准备、电力耗费及人员储备,整体投入高达每月上亿。但为何扎克伯格愿意投入如此之多?这背后与Meta的战略布局密不可分。

Meta的核心商业模式是广告,无论是Facebook、Instagram还是WhatsApp,都依赖于用户的粘性。

然而,随着技术的不断进步,新型创新公司有可能通过技术的爆发,改变用户的粘性。如果这种粘性转移到了另一家公司,那对Meta来说无疑是巨大的威胁。OpenAI的ChatGPT就是一个潜在的竞争者,它的出现已经引发了业界的广泛关注。

为了应对这种潜在的威胁,Meta选择了开源LLaMA3这一策略。通过开源,Meta不仅能够在市场推广中获得极大助力,还能吸引更多的开发者、初创企业加入到他们的技术路线中来,共同构建一个庞大的AI生态。

图片

开源Llama3后,Meta如何赚钱呢?

首先,让我们回顾一下开源的历史。以安卓为例,谷歌通过开源这一策略,吸引了全球无数开发者和手机厂商加入其生态系统。

在这个过程中,谷歌通过广告收入(AdSense和AdWords)、应用商店收入(Google Play)、服务和应用销售(Gmail、Google Maps)、硬件销售以及生态合作伙伴等方式,实现了巨大的商业收益。可以说,掌握着整个生态系统的底座,就是躺赚的开始。

那么,Meta又是如何打算的呢?他们表示,“我们的策略是构建并开放源代码通用基础设施,同时保留我们的具体产品实现为专有技术。”

这句话透露出两层含义:一是Meta愿意开放其大模型的源代码,吸引更多开发者和企业加入其生态系统;二是Meta将保留其核心技术和产品实现,确保自己的竞争优势不被削弱。

这里,我们不妨回顾一下OpenAI的历程。OpenAI之所以名为“OpenAI”,是因为其早期模型GPT-1、GPT-2都是开源的。然而,随着GPT-3的发布,OpenAI却选择了闭源。

这一举动引起了业界的广泛讨论,**甚至有人戏称OpenAI应当改名*为“CloseAI”。*但无论如何,OpenAI的开源闭源策略都证明了开源和闭源并非水火不容,而是可以根据商业布局策略进行灵活调整。

那么,开源会不会削弱Meta的核心竞争力呢?答案是否定的。Meta在开源的同时,对开源的环节、流程和各种限制条件进行了精心设计。这些限制条件确保了Meta的核心技术和产品实现不会被轻易复制或模仿,从而保障了其竞争优势。

当然,这也引发了一些专业人士的质疑和嘲讽,认为Meta的做法“违返开源精神”。但商业世界从来都不是纯粹的道德世界,竞争和利益才是永恒的主题。

那么,Meta通过开源大模型能赚到哪些钱呢?

首先,通过吸引更多开发者和企业加入其生态系统,Meta可以进一步扩大其用户基数和市场份额。这将为其带来更多的广告收入和商业合作机会。

其次,Meta可以通过提供高级版或定制版的大模型服务,向企业收取一定的费用。这些服务将基于Meta的核心技术和产品实现,确保其竞争优势的持续性。

最后,Meta还可以利用其在AI领域的技术积累和生态优势,开展更多与AI相关的业务和合作,实现多元化收益。

总之,Meta开源大模型的背后隐藏着深刻的商业逻辑和赚钱之道。通过开源策略吸引更多开发者和企业加入其生态系统,同时保留核心技术和产品实现为专有技术,Meta在保障自己竞争优势的同时也为未来的发展奠定了坚实的基础。

自从Meta全力投入元宇宙领域以来,小扎终于通过开源Llama3走出了困境,这个大坑爬的确实刺激。

在这里插入图片描述

二、大模型的发展瓶颈

大模型技术的飞速发展正不断刷新着我们的认知。然而,随着技术的深入,大模型未来的发展瓶颈也逐渐显现。

图片

关于这一点,个人还是很赞同张俊林的观点。

目前AIGC高速发展本质上还是吃的数据红利,如果GPT5达不到AGI,同时合成数据也没有技术突破,那么大模型能否通向AGI就存在很大疑问。

到了明年(2025年)下半年,可能用来训练大语言模型的高质量新数据就没有了,靠线性新增数据支持指数速度发展的模型能力是不够的。如果“合成数据”在未来两年不能取得突破性进展,大模型发展速度会骤然下降,无法维持目前这种高速发展的局面。

总体而言,“合成数据”是个新兴研究方向,还很不成熟,目前尚未能看到能主导未来技术方向的主流方法,探索性和不确定性比较强。

目前能看到的“合成数据”应用的最好的产品应该是DALLE-3,以及Sora,就是里面的图像和视频Re-caption模型,本质上这就是机器产生的“合成数据”。

“合成数据”目前应该投入大量资源来做,这是未雨绸缪,也能形成核心竞争力。

寄希望于多模态数据来大幅增强大模型的关键能力,比如逻辑推理能力,目前看只是很多人的愿望,目前并无明确的数据或实验能支持这一点。我个人认为这条路走不通。所以不应该把进一步提升AGI能力的希望寄托在多模态数据上。

未来如何,取决于我们在“合成数据”上的进展,有两种不同的未来图景。

一种是,长时间内合成数据无法大规模实用化。如果这样,未来会出现如下现象:大模型能力基本到顶,各种质疑目前AGI技术路线的声音会逐步放大,而开源和闭源模型能力会持平。

这对于很多闭源模型公司来说是灭顶之灾(尽管我们可以继续通过放大模型规模来进一步提升模型能力,但是模型能力增长曲线会比现在平缓很多,即模型能力“加速度差”减小,开源模型较为容易赶上闭源模型)。

另外一种,是在未来两年内要么我们在“合成数据”方面取得大进展,要么即使没有新数据,但是我们有突破性的技术,可以在数据量不变情况下,极大提升大模型的数据利用效率(相同数据量,相同模型大小,如果模型效果更好,则说明模型的数据利用率更高。当然这块目前也未看到可以主导未来发展的主流技术)。

那么,我们会继续按照Scaling law往后发展,就是继续增加新数据,推大模型规模,来持续增强模型能力。

如果这样,AGI是可能通过大模型技术路线达到的,而在这种情况下,意味着需要相比目前数以十倍、百倍的资源投入,基本是个天文数字了,而在如此巨量投入的情况下,Meta等公司是否还会这样大力度支持开源就是有疑问的,此时开源模型是有可能越来越落后于闭源模型的。

三、一键部署LLaMA3

Ollama是一款由Meta公司开源的本地化管理大模型工具包,它支持多个大模型的本地化部署、管理以及运行,使得我们能够方便地将大模型下载至本地,并进行快速的调试操作。

跑8B版本,个人电脑配置基本够用,本人笔记本是6核CPU,16G内存。

  1. 安装Ollama

安装地址:ollama.com

进入网站后,点击“DownLoad”,选择电脑对应的系统。

在这里插入图片描述

下载之后,点击Next以及Install安装ollama到命令行。安装完成后界面上会提示ollama run llama2,不需要执行这条命令,因为我们要安装llama3

2.下载Llama3

打开新的终端/命令行窗口,执行以下命令:

ollama run llama3

程序会自动下载LLaMA3的模型文件,默认是8B,也就80亿参数版本,个人电脑完全可以运行。

成功下载模型后,我们可以直接在终端和Llama3进行对话,比如提问Who are you?,基本可以实现即时回复。

vbnet
➜  Projects ollama run llama3
>>> who are you?
I'm LLaMA, a large language model trained by a team of researcher at Meta 
AI. I'm here to chat with you and answer any questions you may have.

I've been trained on a massive dataset of text from the internet and can 
generate human-like responses to a wide range of topics and questions. My 
training data includes but is not limited to:

* Web pages
* Books
* Articles
* Research papers
* Conversations

* I'm constantly learning and improving my responses based on the 
* conversations I have with users like you.

* So, what's on your mind? Do you have a question or topic you'd like to 
* discuss?

至此,我们已经成功运行LLaMA3。当然可以继续安装WebUI,可以通过Web页面交互,后续会进行相关分享。


优快云独家福利

最后,感谢每一个认真阅读我文章的人,礼尚往来总是要有的,下面资料虽然不是什么很值钱的东西,如果你用得到的话可以直接拿走:

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

### Argument Code 大模型实现与原理 大模型在自然语言处理领域中扮演了重要角色,尤其是在生成高质量文本、代码等方面。对于argument code(即代码论证或代码逻辑相关的任务),大模型的实现和原理可以从以下几个方面进行探讨。 #### 1. 模型架构设计 大模型通常采用Transformer架构[^1],这种架构能够高效地捕捉长距离依赖关系,并通过自注意力机制(Self-Attention)提取上下文信息。对于argument code任务,模型需要具备以下特点: - **大规模参数量**:增加模型容量以更好地学习复杂的代码逻辑。 - **多模态输入支持**:部分模型支持同时处理自然语言和代码,例如Qwen2支持代码生成和理解任务[^1]。 - **预训练目标**:通过掩码语言建模(MLM)、去噪自动编码(DAE)等任务,增强模型对代码结构的理解能力。 #### 2. 预训练与微调 大模型的训练过程分为预训练和微调两个阶段: - **预训练**:使用大量未标注的代码数据进行无监督学习,帮助模型学习通用的代码表示。例如,Qwen2在预训练阶段使用了大量的开源代码库。 - **微调**:针对特定任务(如argument code生成或优化),使用带标签的数据对模型进行进一步训练。Fine-tuning过程中可以引入知识蒸馏技术,将大型模型的知识迁移到较小的模型上[^2]。 #### 3. 代码生成的具体实现 以下是基于Transformer架构的代码生成示例,展示了如何通过模型预测下一步的代码内容: ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM # 加载预训练模型和分词器 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2") model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2") # 输入代码片段 input_code = "def calculate_sum(a, b):\n return a + b" # 编码输入 inputs = tokenizer(input_code, return_tensors="pt") outputs = model.generate(**inputs, max_length=50, num_beams=5) # 解码输出 generated_code = tokenizer.decode(outputs[0], skip_special_tokens=True) print(generated_code) ``` 上述代码展示了如何加载Qwen2模型并生成后续代码内容。 #### 4. 训练与推理部署 - **训练**:使用`llama_factory`命令行工具可以简化模型训练流程,尤其适合在资源有限的情况下进行实验[^1]。 - **推理**:基于Hugging Face Transformers库,可以轻松实现模型推理部署。此外,通过量化或剪枝技术,可以进一步优化模型的推理性能[^2]。 #### 5. 面临的挑战 尽管大模型在argument code任务中表现出色,但仍面临一些挑战: - **数据质量**:高质量的代码数据集对于模型性能至关重要。 - **计算资源**:训练大规模模型需要强大的硬件支持。 - **可解释性**:模型生成的代码可能难以解释,需要额外的分析工具。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值