为什么谷歌发现了Transformer架构，却没有创造GPT这样的产品？

原创已于 2024-10-06 17:17:59 修改 · 2.9k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#程序人生 #transformer #人工智能 #深度学习 #gpt

于 2024-10-06 17:16:59 首次发布

部署运行你感兴趣的模型镜像

🤔 为什么谷歌发现了Transformer架构，却没有创造GPT这样的产品？

谷歌是最早提出Transformer架构的公司，但是却没有创造出像GPT这样的产品。背后有很多原因，包括公司战略、商业模式、组织管理和人才构成的不同。

但是OpenAI利用了Transformer架构进行了巨大的创新，改变了人们对自然语言生成的认知。

我们先思考下面这几个问题：

1：如果一家公司只专注于现有业务，是否会错失开拓新市场的机会❓创新和稳定之间应该如何平衡❓

2：谷歌选择专注于搜索和广告，这种谨慎是否会让它在未来的AI竞争中落后❓市场在2022年已给出了答案

公司战略

谷歌推出了BERT之后，将其直接应用于搜索引擎的优化中，这一举措大大提升了谷歌对复杂查询的理解能力，让用户得到更精准的搜索结果。

但谷歌没有将Transformer用于生成文本的领域，而是选择专注于现有的广告和搜索业务，而这正是OpenAI看到了机会。

OpenAI在2019年发布了GPT-2，并在2022年发布了GPT-3.5。OpenAI不仅开发了生成文本的技术，还通过与微软的合作，使得GPT-3成为了Azure云平台上的一项商业化服务，这一举措成功让GPT成为一种可盈利的技术。

GPT重要时间线表格

时间	事件	主要内容	影响和应用
2020年6月	GPT-3 发布	OpenAI发布GPT-3，拥有1750亿参数，成为最强大的语言模型	引起全球对大型语言模型的关注，成为众多AI应用的基础
2020年9月	GPT-3 API 商业化	与微软合作，将GPT-3集成到Azure云平台，提供API服务	推动AI在内容生成、聊天机器人、文本自动化等领域的应用
2020年9月	微软独家授权	微软获得对GPT-3模型的独家使用授权，用于增强Azure和Office系列产品	提升微软在生产力工具和云服务方面的AI竞争力
2022年11月	ChatGPT 发布	基于GPT-3.5，专为对话优化，提供自然流畅的互动体验	成为热门应用，获得数百万用户，社交媒体热烈讨论
2023年3月	GPT-4 发布	OpenAI发布GPT-4，支持多模态输入，参数和推理能力显著提升	用于医学问答、教育辅导、法律咨询等复杂任务
2023年3月	微软整合GPT-4	将GPT-4整合到Word、Excel和Bing中	Bing具备生成式AI功能，与Google竞争力增强
2023年2月	ChatGPT Plus 订阅服务上线	OpenAI推出订阅服务，为用户提供更稳定、更快速的体验	吸引付费用户，带来稳定收入，验证商业化路径
2023年4月	插件功能扩展	ChatGPT支持插件，可连接外部工具（如浏览器、计算器等）	处理复杂任务的能力增强，进一步提升实用性

通过以上时间线的表格整理，我们可以看到，从GPT-3的发布到ChatGPT和GPT-4的出现，人工智能语言模型的演变经历了技术突破、商业化应用和功能迭代的过程。OpenAI和微软之间的合作也让这些技术迅速从实验室走向市场，影响了我们的工作和生活方式。

OpenAI在利用Transformer架构进行商业化探索的积极态度。

从公司战略的角度来看，谷歌更愿意用Transformer架构优化它的核心业务，而不是冒险去探索语言生成这种新领域，这样的项目可能无法带来直接的💰商业回报。

此外，谷歌作为一家上市公司，需要对投资者负责。相比于OpenAI这种专注于研发的组织，谷歌的决策往往更加保守，尤其是在涉及到大规模投资和市场不确定性风险的时候。

所以，谷歌选择将Transformer架构应用到已经成熟的产品上，而不是开发像GPT这样具有高风险的新产品。

💡 当然，不同的公司文化和商业模式决定了技术应用的方式。谷歌当初看似合理的决策是否有其他可能？最近硅谷大佬格雷厄姆提倡的创始人模式也许会给我们一些启示。

还有一点值得吐槽一下，劈柴哥拿着一亿多美金薪水的CEO，这几年在AI竞赛上却没有亮眼的成绩，总是作为追赶者，不过，他不是创始人。最近的NoteboolLM也给人带来了一些惊喜。

谷歌通过BERT技术改善了Google Search和Google Assistant的用户体验，使得这些产品能够更好地理解自然语言的复杂意图，直接提升了广告的投放精度和用户满意度。

据谷歌发布的数据显示，BERT的引入使得复杂查询的准确率提高了约10%，这极大地提升了用户在搜索中的体验和满意度。

而OpenAI则走了一条不同的路，OpenAI的商业模式也不同。OpenAI通过提供强大的语言生成能力来直接服务企业🏢，例如提供API服务和技术授权。OpenAI和微软合作推出了GPT-3的API，通过微软的Azure平台实现商业化，为OpenAI带来了稳定的收入💸。

这种商业模式非常适合GPT的技术特点，因为生成语言可以应用到很多领域，比如客服、内容创作✍️、编程助手等。

谷歌比较保守，而OpenAI非常激进，这两种不同的路径反映了他们的商业化方式的差异。

谷歌更希望把Transformer技术作为搜索和广告系统的增强技术，而OpenAI则把GPT打造成一个全新的AI工具🛠️，面向更多的应用场景。

谷歌的成熟业务让它在选择新技术时更谨慎，而OpenAI是一个较年轻的组织，能够更自由地进行大胆的创新。

🤨 思考：公司规模越大，官僚化和部门壁垒越明显。这种结构上的限制，是否可以通过更灵活的创新机制来改变？

组织结构

从组织管理的角度来看，谷歌的规模和管理架构实际上限制了它在某些领域的激进创新。

一个很好的例子就是谷歌的Google Duplex项目，尽管这个项目展示了谷歌在AI对话系统上的巨大潜力，但它的发展过程受到内部多个部门的影响，使得技术的推进速度相对较慢。

相比之下，OpenAI的团队在开发GPT系列时并不受这种组织层级的限制，能够快速将想法转化为技术突破，并在市场上率先取得了成功。

相比之下，OpenAI的管理结构更简单、更灵活。作为一个专注于AI研究的组织，OpenAI的研究人员可以更快地从想法走到实验🧪。OpenAI的结构设计就是为了最大限度地鼓励基础研究和技术创新。它的企业文化更加倾向于承担风险和突破创新，因此能够专注于开发像GPT这样具有巨大影响力的产品。

谷歌的内部文化可能更注重优化已有产品，而不是进行彻底的颠覆性创新。这种优化策略更加符合谷歌的整体商业模式和风险管理方法，因为谷歌依赖广告收入，其核心目标是确保现有业务的稳定增长。通过对已有产品的逐步改进，谷歌可以更好地控制风险，保持其在市场上的领先地位，同时满足股东的期望。GPT的开发需要一种有远见和驱动力的环境，需要承担失败的风险，并长期投入。虽然谷歌有“20%时间”的创新文化，但整体上，它更强调对现有产品的逐步改进和增强服务，这让彻底的创新往往难以获得足够的支持和资源。

👩‍🔬👨‍💻 人才构成：专注领域和研究目标的不同

从人才的角度来看，谷歌聚集了很多世界上最优秀的工程师和研究人员，但这些人的目标大多是改进现有的业务。例如，谷歌的许多AI研究人员致力于与广告📊、搜索🔍、视频📹等产品相关的技术创新。这些项目的成功可以直接影响公司的业务指标，因此更容易得到重视。

例如，OpenAI的研究人员通过GPT-3展示了语言生成的强大能力，这款模型被用来创建虚拟助手、撰写文章，甚至帮助编写代码。与谷歌更偏向于现有产品优化的方向不同，OpenAI的目标是开发对未来各行业都能产生影响的工具，从而推动更广泛的创新。OpenAI有更多喜欢冒险、专注于基础研究的人才，他们希望突破技术边界，而不仅仅是改进现有产品。

谷歌的工程师文化强调实用性和稳定性，而OpenAI的研究型文化则更看重实验和探索。
举个例子，OpenAI历次的演示视频中经常会出现年轻员工的面孔，显得随意而又自信。

当然，研究性文化主导的公司可能也会有些问题，当它和商业化高度结合时，有可能会出现不太成熟的产品匆忙面世。

这种人才构成的不同也决定了两家公司在Transformer架构上采取了不同的方向。谷歌选择用BERT优化现有业务，而OpenAI则在未知领域大胆探索。