引言:
大模型落地到当前这个阶段,核心关注点还是领域大模型,而领域大模型落地的前提在于两点:需求端,对当前应用的降本增效以及新应用的探索;供给端,训练技术已经有较高的成熟度。
专家介绍:
柏海峰
滴普科技 Deepexi产品线总裁
负责企业大模型产品的规划、技术架构设计和应用解决方案的全体系打造,承担公司基础产品核心竞争力及创新力的构建。拥有丰富的企业数字化转型咨询与实施和产品研发管理经验,曾任华为技术研发经理、微软中国顾问、IBM(GBS)咨询总监以及营销云SaaS产品创业经验,服务过中移动、华润、工商银行等多个世界500强企业。
降本增效方面,以机器学习团队的构成为例,滴普科技Deepexi产品线总裁柏海峰介绍道:“传统机器学习或者说小模型的技术落地,对人才的要求很高,但企业往往没有意识到这个问题。具体来说,一般需要构建一个综合性的团队即数据科学团队,团队中需要数据开发工程师、BI工程师、商业分析师、数据科学家、算法工程师等岗位,人力成本很高,除了互联网、金融行业的大型企业,传统企业或中小型企业很难组建这样的团队。”
人才要求高的原因在于,不同岗位的技能差异非常大,相关工具和技术栈也比较分散,比如在某个具体应用领域的AI模型也是采用不同的算法,数据处理层面的pipeline,很多时候自动化的实现也不够完善。总之,不同的钉子只能用不同的锤子,而每一把锤子都不便宜。
因此,尽管小模型对算力、数据要求没有那么高,但要调出好的效果,复杂度还是很高的。除了技术因素,在团队协作和业务适配方面,也还有很多难题。
“大模型带来的首要好处就是,它一下子把技术门槛拉低了,把整个技术栈从输入到输出的链条变得很短,原本需要很多人的数据科学团队,变成只需要一个人加多个Copilot就可以完成,这个人甚至可以是业务部门的,这是非常有想象力的。”
训练技术方面,大模型一般都是先进行self supervised learning,构建通用大模型,然后经过supervised fine-tuning训练,针对特定任务,构建领域大模型初版,最后通过RLHF训练,对齐人类价值,完成类似于人类学习成长的解题、实习、社会工作三步曲。
其中后两步是大模型微调并构建领域大模型的主要步骤,可以把训练前回答问题很散漫的通用大模型Llama 2 13B,训练成专业性很强的chatbot——Llama 2 13B-chat。