为什么谷歌发现了Transformer架构,却没有创造GPT这样的产品?

部署运行你感兴趣的模型镜像

🤔 为什么谷歌发现了Transformer架构,却没有创造GPT这样的产品?

谷歌是最早提出Transformer架构的公司,但是却没有创造出像GPT这样的产品。背后有很多原因,包括公司战略、商业模式、组织管理和人才构成的不同。

但是OpenAI利用了Transformer架构进行了巨大的创新,改变了人们对自然语言生成的认知。

我们先思考下面这几个问题:

1:如果一家公司只专注于现有业务,是否会错失开拓新市场的机会❓创新和稳定之间应该如何平衡❓

2:谷歌选择专注于搜索和广告,这种谨慎是否会让它在未来的AI竞争中落后❓市场在2022年已给出了答案

公司战略

谷歌推出了BERT之后,将其直接应用于搜索引擎的优化中,这一举措大大提升了谷歌对复杂查询的理解能力,让用户得到更精准的搜索结果。

但谷歌没有将Transformer用于生成文本的领域,而是选择专注于现有的广告和搜索业务,而这正是OpenAI看到了机会。

OpenAI在2019年发布了GPT-2,并在2022年发布了GPT-3.5。OpenAI不仅开发了生成文本的技术,还通过与微软的合作,使得GPT-3成为了Azure云平台上的一项商业化服务,这一举措成功让GPT成为一种可盈利的技术。

GPT重要时间线表格

时间事件主要内容影响和应用
2020年6月GPT-3 发布OpenAI发布GPT-3,拥有1750亿参数,成为最强大的语言模型引起全球对大型语言模型的关注,成为众多AI应用的基础
2020年9月GPT-3 API 商业化与微软合作,将GPT-3集成到Azure云平台,提供API服务推动AI在内容生成、聊天机器人、文本自动化等领域的应用
2020年9月微软独家授权微软获得对GPT-3模型的独家使用授权,用于增强Azure和Office系列产品提升微软在生产力工具和云服务方面的AI竞争力
2022年11月ChatGPT 发布基于GPT-3.5,专为对话优化,提供自然流畅的互动体验成为热门应用,获得数百万用户,社交媒体热烈讨论
2023年3月GPT-4 发布OpenAI发布GPT-4,支持多模态输入,参数和推理能力显著提升用于医学问答、教育辅导、法律咨询等复杂任务
2023年3月微软整合GPT-4将GPT-4整合到Word、Excel和Bing中Bing具备生成式AI功能,与Google竞争力增强
2023年2月ChatGPT Plus 订阅服务上线OpenAI推出订阅服务,为用户提供更稳定、更快速的体验吸引付费用户,带来稳定收入,验证商业化路径
2023年4月插件功能扩展ChatGPT支持插件,可连接外部工具(如浏览器、计算器等)处理复杂任务的能力增强,进一步提升实用性

通过以上时间线的表格整理,我们可以看到,从GPT-3的发布到ChatGPT和GPT-4的出现,人工智能语言模型的演变经历了技术突破、商业化应用和功能迭代的过程。OpenAI和微软之间的合作也让这些技术迅速从实验室走向市场,影响了我们的工作和生活方式。

OpenAI在利用Transformer架构进行商业化探索的积极态度。

从公司战略的角度来看,谷歌更愿意用Transformer架构优化它的核心业务,而不是冒险去探索语言生成这种新领域,这样的项目可能无法带来直接的💰商业回报。

此外,谷歌作为一家上市公司,需要对投资者负责。相比于OpenAI这种专注于研发的组织,谷歌的决策往往更加保守,尤其是在涉及到大规模投资和市场不确定性风险的时候。

所以,谷歌选择将Transformer架构应用到已经成熟的产品上,而不是开发像GPT这样具有高风险的新产品。

💡 当然,不同的公司文化和商业模式决定了技术应用的方式。谷歌当初看似合理的决策是否有其他可能?最近硅谷大佬格雷厄姆提倡的创始人模式也许会给我们一些启示。

还有一点值得吐槽一下,劈柴哥拿着一亿多美金薪水的CEO,这几年在AI竞赛上却没有亮眼的成绩,总是作为追赶者,不过,他不是创始人。最近的NoteboolLM也给人带来了一些惊喜。

谷歌通过BERT技术改善了Google Search和Google Assistant的用户体验,使得这些产品能够更好地理解自然语言的复杂意图,直接提升了广告的投放精度和用户满意度。

据谷歌发布的数据显示,BERT的引入使得复杂查询的准确率提高了约10%,这极大地提升了用户在搜索中的体验和满意度。

而OpenAI则走了一条不同的路,OpenAI的商业模式也不同。OpenAI通过提供强大的语言生成能力来直接服务企业🏢,例如提供API服务和技术授权。OpenAI和微软合作推出了GPT-3的API,通过微软的Azure平台实现商业化,为OpenAI带来了稳定的收入💸。

这种商业模式非常适合GPT的技术特点,因为生成语言可以应用到很多领域,比如客服、内容创作✍️、编程助手等。

谷歌比较保守,而OpenAI非常激进,这两种不同的路径反映了他们的商业化方式的差异。

谷歌更希望把Transformer技术作为搜索和广告系统的增强技术,而OpenAI则把GPT打造成一个全新的AI工具🛠️,面向更多的应用场景。

谷歌的成熟业务让它在选择新技术时更谨慎,而OpenAI是一个较年轻的组织,能够更自由地进行大胆的创新。

🤨 思考:公司规模越大,官僚化和部门壁垒越明显。这种结构上的限制,是否可以通过更灵活的创新机制来改变?



组织结构

从组织管理的角度来看,谷歌的规模和管理架构实际上限制了它在某些领域的激进创新。

一个很好的例子就是谷歌的Google Duplex项目,尽管这个项目展示了谷歌在AI对话系统上的巨大潜力,但它的发展过程受到内部多个部门的影响,使得技术的推进速度相对较慢。

相比之下,OpenAI的团队在开发GPT系列时并不受这种组织层级的限制,能够快速将想法转化为技术突破,并在市场上率先取得了成功。

相比之下,OpenAI的管理结构更简单、更灵活。作为一个专注于AI研究的组织,OpenAI的研究人员可以更快地从想法走到实验🧪。OpenAI的结构设计就是为了最大限度地鼓励基础研究和技术创新。它的企业文化更加倾向于承担风险和突破创新,因此能够专注于开发像GPT这样具有巨大影响力的产品。

谷歌的内部文化可能更注重优化已有产品,而不是进行彻底的颠覆性创新。这种优化策略更加符合谷歌的整体商业模式和风险管理方法,因为谷歌依赖广告收入,其核心目标是确保现有业务的稳定增长。通过对已有产品的逐步改进,谷歌可以更好地控制风险,保持其在市场上的领先地位,同时满足股东的期望。GPT的开发需要一种有远见和驱动力的环境,需要承担失败的风险,并长期投入。虽然谷歌有“20%时间”的创新文化,但整体上,它更强调对现有产品的逐步改进和增强服务,这让彻底的创新往往难以获得足够的支持和资源。

👩‍🔬👨‍💻 人才构成:专注领域和研究目标的不同

从人才的角度来看,谷歌聚集了很多世界上最优秀的工程师和研究人员,但这些人的目标大多是改进现有的业务。例如,谷歌的许多AI研究人员致力于与广告📊、搜索🔍、视频📹等产品相关的技术创新。这些项目的成功可以直接影响公司的业务指标,因此更容易得到重视。

例如,OpenAI的研究人员通过GPT-3展示了语言生成的强大能力,这款模型被用来创建虚拟助手、撰写文章,甚至帮助编写代码。与谷歌更偏向于现有产品优化的方向不同,OpenAI的目标是开发对未来各行业都能产生影响的工具,从而推动更广泛的创新。OpenAI有更多喜欢冒险、专注于基础研究的人才,他们希望突破技术边界,而不仅仅是改进现有产品。

谷歌的工程师文化强调实用性和稳定性,而OpenAI的研究型文化则更看重实验和探索。
举个例子,OpenAI历次的演示视频中经常会出现年轻员工的面孔,显得随意而又自信。

当然,研究性文化主导的公司可能也会有些问题,当它和商业化高度结合时,有可能会出现不太成熟的产品匆忙面世。

这种人才构成的不同也决定了两家公司在Transformer架构上采取了不同的方向。谷歌选择用BERT优化现有业务,而OpenAI则在未知领域大胆探索。

✨ 谷歌和OpenAI的不同选择说明了,成功的创新不只是技术问题,还有赖于组织文化和商业战略。所以,**对于一个成熟公司和组织,如何在这些方面保持前瞻性?**这是一个值得讨论的话题

谷歌没有创造出GPT这样的产品,并不是因为技术不够,而是因为公司战略、商业模式、组织管理和人才构成等多个方面的原因。以下是这些原因的简要总结:

  • 公司战略:谷歌更倾向于把创新用在核心业务上,如搜索和广告,而不是进行彻底的颠覆性创新。
  • 商业模式:谷歌的盈利模式主要依赖广告,而OpenAI通过API服务等方式直接盈利。
  • 组织管理:谷歌的规模和官僚化使得跨部门合作:鼓励不同部门之间的合作和知识共享,激发创新思维,从而在现有业务中融入新技术。

谷歌和OpenAI的例子展示了两种完全不同的路径,各有其优缺点:一种是稳扎稳打,优化和提升现有业务,另一种是大胆进取,探索未知的可能性。

谷歌在引入BERT后,其搜索引擎的复杂查询准确率提升了约10%,这表明优化现有业务能够产生显著成效。

而OpenAI则通过GPT-3打入多个新领域,如内容创作和代码生成,展示了探索未知的潜力。

但是,我们在2024回看过去几年,谷歌基于Transformer提升了搜索引擎10%的准确率,而OpenAI用它开启了一个AI的新时代,并达到了万亿估值。

单纯从这一点来讲,OpenAI显然是伟大的。

有兴趣的话,推荐大家读读这篇关于创始人模式的文章:
https://www.paulgraham.com/foundermode.html

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

<think>我们正在讨论Transformer模型的工作原理。根据用户要求,需要提供具体示例说明。根据引用[2]和[3],Transformer由编码器和解码器组成,其中核心是多头注意力机制。我们将分步骤解释Transformer的底层工作原理,并配以具体示例。步骤1:自注意力机制自注意力机制允许模型在处理每个词时关注输入序列中的其他相关词。例如,在句子“Theanimaldidn'tcross thestreet becauseit wastoo tired”中,模型需要知道“it”指的是“animal”。自注意力通过计算每个词与其他词之间的关联分数(attentionscore)来实现。具体计算步骤:1.将每个输入词向量(假设为嵌入向量)转换为三个向量:Query(查询向量)、Key(键向量)和Value(值向量)。2.计算注意力分数:通过Query和Key的点积得到,然后除以一个缩放因子(通常是Key向量维度的平方根),再经过softmax函数归一化。3.用注意力分数加权Value向量,得到加权和作为输出。示例:假设有两个词向量$x_1$(代表“it”)和$x_2$(代表“animal”),我们计算它们之间的注意力。首先,通过权重矩阵得到:$q_1= W_q \cdot x_1$(“it”的查询向量)$k_2 =W_k\cdotx_2$(“animal”的键向量)$v_2 =W_v\cdotx_2$(“animal”的值向量)然后计算“it”对“animal”的注意力分数:$score_{12}= \frac{q_1\cdotk_2}{\sqrt{d_k}}$再对分数进行softmax归一化,得到权重,最后加权值向量:$z_1= \sum_{j} \text{softmax}(score_{1j})\cdotv_j$(其中$j$包括“animal”和其他词)步骤2:多头注意力(Multi-Head Attention)引用[3]提到,多头注意力通过多个不同的线性变换将Query、Key、Value映射到多个子空间,然后在每个子空间中分别进行自注意力计算,最后将结果拼接起来。这样可以让模型同时关注不同表示子空间的信息。例如,一个8头的注意力,我们会得到8组不同的Query、Key、Value矩阵,从而得到8个不同的注意力输出,然后拼接这8个输出并通过一个线性层得到最终的多头注意力输出。步骤3:位置编码(PositionalEncoding)由于Transformer没有循环和卷积结,因此需要位置编码来引入序列的顺序信息。位置编码通过正弦和余弦函数生成,与词向量相加后输入到模型中。位置编码公式:$$PE_{(pos,2i)}= \sin(pos/10000^{2i/d_{model}})$$$$PE_{(pos,2i+1)}= \cos(pos/10000^{2i/d_{model}})$$其中$pos$是位置,$i$是维度索引。步骤4:编码器层(EncoderLayer)每个编码器层包含:-一个多头自注意力子层(self-attention)-一个前馈神经网络(FFN)每个子层都有残差连接和层归一化(Layer Normalization)。示例:假设输入是词嵌入向量加上位置编码,记为$X$。多头自注意力的输出为:$Z= \text{LayerNorm}(X+ \text{MultiHead}(X, X, X))$然后前馈网络:$FFN(Z) =\max(0, ZW_1 +b_1)W_2 +b_2$最后输出:$Y= \text{LayerNorm}(Z+ FFN(Z))$步骤5:解码器层(Decoder Layer)解码器层与编码器类似,但有两个注意力机制:-掩码自注意力(Masked Self-Attention):防止解码器看到未来的信息(在训练时)。-编码器-解码器注意力(Encoder-Decoder Attention):将解码器的Query与编码器的Key和Value进行注意力计算。示例:在机器翻译任务中,解码器生成目标语言的一个词时,会使用编码器输出的表示(包含源语言信息)和已经生成的目标语言词(通过掩码自注意力)。步骤6:整体架构Transformer模型整体由N个编码器层和N个解码器层堆叠而成(论文中N=6)。编码器的输出传递给每个解码器层的编码器-解码器注意力模块。示例说明(机器翻译):假设我们要将英文“Helloworld”翻译成德文“Hallo Welt”。1.输入“Hello world”经过嵌入层和位置编码后输入到编码器。2.编码器通过多层处理,输出每个词的上下文表示(包含整个句子的信息)。3.解码器从起始符<SOS>开始,逐步生成目标语言词。第一步:输入<SOS>,使用编码器的输出,通过自注意力(掩码)和编码器-解码器注意力,预测第一个词“Hallo”。第二步:输入<SOS> Hallo,预测下一个词“Welt”。第三步:输入<SOS>HalloWelt,预测结束符<EOS>。通过以上步骤,Transformer模型能够有效地捕捉长距离依赖关系,并在各种NLP任务中取得优异表现。相关问题:1.自注意力机制中的缩放因子为什么是$\sqrt{d_k}$?2.位置编码为什么使用正弦和余弦函数?3. Transformer模型在训练和推理时有什么不同?4.多头注意力中“头”的数量如何影响模型性能?5.如何理解Transformer中的残差连接和层归一化?</think>### Transformer模型的底层工作原理 Transformer模型的核心是**自注意力机制**(Self-Attention),通过并行处理序列数据解决传统RNN的长距离依赖问题。以下是关键组件及示例说明: --- #### 1. **自注意力机制(Self-Attention)** - **目标**:计算序列中每个词与其他词的关联权重。 - **计算步骤**: 1. **生成Q/K/V向量**: 对输入词嵌入向量 $x_i$ 进行线性变换: $Query = W_q \cdot x_i$, $Key = W_k \cdot x_i$, $Value = W_v \cdot x_i$ ($W_q, W_k, W_v$ 是可学习权重矩阵)。 2. **计算注意力分数**: 通过点积衡量词间关联度: $\text{score}_{ij} = \frac{Q_i \cdot K_j}{\sqrt{d_k}}$ ($d_k$ 是Key的维度,缩放避免梯度爆炸)。 3. **Softmax归一化**: $\alpha_{ij} = \text{softmax}(\text{score}_{ij})$ (得到权重 $\alpha_{ij}$,表示词 $j$ 对 $i$ 的重要性)。 4. **加权求和输出**: $z_i = \sum_j \alpha_{ij} V_j$ (输出向量 $z_i$ 融合了上下文信息)。 **示例**: 句子:"The cat chased the mouse because **it** was hungry." - 计算 "it" 的注意力时: $\alpha_{\text{it}\rightarrow\text{cat}}$ 较高(约0.7), $\alpha_{\text{it}\rightarrow\text{mouse}}$ 较低(约0.3)。 - 输出 $z_{\text{it}}$ 主要包含 "cat" 的信息,消除指代歧义。 --- #### 2. **多头注意力(Multi-Head Attention)** - **原理**:并行运行多组自注意力机制,捕捉不同语义关系[^3]。 $$\text{MultiHead}(Q,K,V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O$$ 其中 $\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$。 - **示例**: 分析句子"Apple released a new phone.": - 一个头关注 **"Apple"→"company"**(品牌), - 另一个头关注 **"Apple"→"fruit"**(潜在歧义), - 模型综合多视角信息,提升语义理解。 --- #### 3. **位置编码(Positional Encoding)** - **作用**:注入序列顺序信息(因Transformer无递归结)。 公式: $$PE_{(pos,2i)} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$$ $$PE_{(pos,2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$$ ($pos$=词位置,$i$=维度索引)。 - **示例**: 输入序列 ["A", "B", "C"]: - "B" 的位置编码会使其在向量空间中靠近位置2,远离位置1和3。 --- #### 4. **编码器-解码器结** - **编码器**(左图): - 包含多头自注意力层 + 前馈神经网络(FFN)。 - 每层有残差连接和层归一化(LayerNorm)[^2]。 - **解码器**(右图): - 新增 **掩码自注意力**:防止未来信息泄露(如预测第 $t$ 个词时屏蔽 $t+1$ 及之后的词)。 - **编码器-解码器注意力**:解码器的Query与编码器的Key/Value交互[^2]。 **工作流程示例**(英→法翻译): ```python # 输入编码器: "Hello world" 编码器输出 = [词向量("Hello"), 词向量("world")] + 位置编码 # 解码器生成步骤: 步骤1: 输入起始符<SOS> → 输出"Bonjour" 步骤2: 输入<SOS> "Bonjour" → 输出"le" 步骤3: 输入<SOS> "Bonjour le" → 输出"monde" ``` --- #### 5. **前馈神经网络(FFN)与残差连接** - **FFN**:两层全连接 + ReLU激活: $$\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$$ - **残差连接**:$x + \text{Sublayer}(x)$,缓解梯度消失。 - **层归一化**:稳定训练过程。 --- ### 总结 Transformer通过**自注意力**动态聚焦关键信息,**多头机制**捕捉多维度关系,**位置编码**保留序列顺序,结合**残差结**实现高效并行训练。其在机器翻译(如Google Translate)、文本生成(如GPT系列)中表现卓越[^4]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一支烟一朵花

所有打赏将用于一支烟花AI社区

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值