DataWhale组队学习-LLM学习-Task02

本次学习参考赵鑫老师团队的新书《大语言模型》链接如下:

GitHub - datawhalechina/llmbook

大语言模型关键技术概览

  • 规模扩展:早期研究主要关注模型参数规模所带来的性能优势,最近的工作则是加大对于高质量数据的规模扩展,实现规模扩展的关键在于模型架构的可扩展性。

  • 数据工程:通过在海量文本上进行下一个词预测的优化,使得模型能够学习到丰富的语义知识信息,进而通过文本补全的方式解决各种下游任务,需要对于数据进行全面的采集,拓宽高质量的数据来源;需要对于收集到的数据进行精细的清洗,尽量提升用于大模型训练的数据质量;需要设计有效的数据配比与数据课程,加强模型对于数据语义信息的利用效率。

  • 高效预训练:由于参数规模巨大,需要使用大规模分布式训练算法优化大语言模型的神经网络参数。在训练过程中,需要联合使用各种并行策略以及效率优化方法,包括 3D 并行(数据并行、流水线并行、张量并行)、ZeRO(内存冗余消除技术)等。在实现上,大语言模型的训练过程需要搭建一个全栈式的优化体系架构,能够支持大规模预训练数据的调度安排,建立起可迭代的模型性能改进闭环,加强效果反馈机制,从而能够快速、灵活地进行相关训练策略的调整。

  • 能力激发:为了提升模型的任务求解能力,需要设计合适的指令微调以及提示策略进行激发或诱导。在指令微调方面,可以使用自然语言表达的任务描述以及期望的任务输出对于大语言模型进行指令微调,从而增强大语言模型的通用任务求解能力,提升模型在未见任务上的泛化能力。在提示学习方面,需要设计合适的提示策略去诱导大语言模型生成正确的问题答案。提出了多种高级提示策略,包括上下文学习、思维链提示等,通过构建特殊的提示模板或者表述形式来提升大语言模型对于复杂任务的求解能力。进一步,大语言模型还具有较好的规划能力,能够针对复杂任务生成逐步求解的解决方案,从而简化通过单一步骤直接求解任务的难度,进一步提升模型在复杂任务上的表现。

  • 人类对齐:经过海量无标注文本预训练的大语言模型可能会生成有偏见、泄露隐私甚至对人类有害的内容。在实践应用中,需要保证大语言模型能够较好地符合人类的价值观。比较具有代表性的对齐标准是“3 H 对齐标准”,即Helpfulness(有用性)、Honesty(诚实性)和Harmlessness(无害性)。基于上述问题,OpenAI 提出了基于人类反馈的强化学习算法(Reinforcement Learning from Human Feedback, RLHF)由于强化学习算法的优化过程较为复杂使用监督微调的对齐方式,从而简化 RLHF 优化过程的算法,如DPO 算法。

  • 工具使用:由于大语言模型的能力主要是通过大规模文本数据的语义学习所建立的,因此在非自然语言形式的任(如数值计算)中能力较为受限。语言模型的能力也受限于预训练数据所提供的信息,无法有效推断出超过数据时间范围以及覆盖内容的语义信息。为了解决上述问题,工具学习成为一种扩展大语言模型能力的关键技术,通过让大语言模型学会使用各种工具的调用方式,进而利用合适的工具去实现特定的功能需求。在技术路径上,工具调用能力主要是通过指令微调以及提示学习两种途径实现。

LLM局限性:首先,大模型中某些重要能力(如上下文学习能力)的涌现仍然缺乏形式化的理论解释,其次,大语言模型预训练需要大规模的计算资源支持,研究各种训练策略的效果并进行可重复性的消融实验的成本非常高昂。现有的大语言模型非常依赖于工程方法的优化(如数据清洗等),但是这些技术的理论支撑还比较缺乏。第三,让大语言模型充分与人类价值观或偏好对齐也是一项重要的科研挑战。

大语言模型对科技发展的影响

  • 自然语言处理:在自然语言处理领域,大语言模型可以作为一种通用的语言任务解决技术,能够通过特定的提示方式解决不同类型的任务,并且能够取得较为领先的效果。

  • 信息检索:在信息检索领域,传统搜索引擎受到了人工智能信息助手(即ChatGPT)这一新型信息获取方式的冲击。信息检索领域主要关注两个新兴方向的研究,即检索增强的大语言模型以及大语言模型增强的搜索系统,全面围绕大语言模型技术展开。

  • 计算机视觉:在计算机视觉领域,研究人员为了更好地解决跨模态或多模态任务,正着力研发类 ChatGPT 的视觉-语言联合对话模型,GPT-4 已经能够支持图文多模态信息的输入。

  • 人工智能赋能的科学研究(AI4Science):目前大语言模型技术已经广泛应用于数学、化学、物理、生物等多个领域,基于其强大的模型能力赋能科学研究。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值