前言
当前大模型的学习资源呈现爆发趋势,各种角色的人都用自己的视角参与到大模型的讨论。但是我发现这些学习资源都有几个特点:只摆事实而不讲道理;只讲应用可能而不提实现代价;只讲可能性而缺乏实操经验分享;洞察材料比比皆是而缺乏深入分析。当然,大模型的技术体系非常庞大,全面了解非常困难。从横向来看,涉及到语言大模型到多模态大模型;从纵向来看,又涉及算法、模型、分布式软件、集群等专业知识。作者认识到社区缺乏一些学习资料,能够将复杂问题简单化,并且不失深度地介绍大模型的基本原理和技术。本文尝试对大模型的机器学习原理进行统一,并且绕过复杂的公式化表达和推导,给读者深入浅出的理论解释,帮助读者拨开大模型神秘面纱。作者认为只有深刻理解了理论原理,才能应对千变万化的应用需求。本文章适合各个角色的人阅读,包括BD、SA、PLM、研发和各层管理者。
一、大模型的外在表现和现实意义
1.1 泛化性和边际成本问题
最近几年,大模型甚嚣尘上。特别是自ChatGPT推出之后,大街小巷都在讨论大模型。那么大模型为什么吸引了如此多的注意力呢?大模型到底解决什么什么现实问题?人类经历了第一波深度学习热潮和退潮之后,体会到第一波深度学习解决问题的严重问题。并且在大模型身上看到了问题彻底解决的曙光。自深度学习爆发以来,大模型进入了千行百业。从最早的监控和泛娱乐行业,到后来的工业生产,深度学习技术都和行业紧密结合。本文作者自己经历了整个过程,从刚进公司部门200人到现在的2000人,作者经历了AI进入千行百业的完整过程。
然而,AI进入千行百业过程中出现了一个严重违背商业逻辑的现象。那就是边际成本没有随着规模的增长而降低。一个合理的商业scale law是一次投入,千万次复制,最终边际成本趋向于零。然而,由于上一波AI浪潮中,深度学习表现出非常差的泛化性,导致只要切换一个场景,都需要研发人员参与定制。 比如最常见的人脸识别技术,手机认证的人脸识别模型和监控的人脸识别模型无法通用。甚至一些场景由于背光或者逆光问题,都将重新开发模型。在工业领域,这种现象就更加明显,在工业检测中,摄像机安装角度的改变,或者检测目标的改变,都需要重新定制模型。这就导致你无法做一个通用模型,然后无限推广。因此上一波AI技术浪潮中,大多数创业公司盈利都非常困难,除了少数在大场景下获得足够市场空间的几家公司成功上市以外,绝大多数AI创业公司都很难长大。如此之下,AI进入千行百业就