课程来源:https://www.coursera.org/learn/generative-ai-with-llms/
by DeepLearning.AI & Amazon Web Services
Transformer 网络工作原理
- 复杂但重要:这是个复杂话题,2017 年《Attention Is All You Need》论文阐述了 Transformer 架构内复杂数据处理过程。将从高层面审视并深入探讨自注意力及多头自注意力机制,以理解模型为何可行及如何理解语言。
- 持久领先:Transformer 架构问世久,在众多模型中仍处领先。
- 原理探究:很多人对其细微处了解不深,将讲解如多头注意力机制等术语原理,其以大规模并行方式运行,可在现代 GPU 上扩展,是 Transformer 成功原因之一。讲解会注重关键部分,让学习者获得直观理解以实际运用模型。
- 跨领域影响:虽课程聚焦文本,但 Transformer 架构为视觉 Transformer 等奠定基础,理解它有助于掌握其他模态,是机器学习关键组成部分。
生成式人工智能项目生命周期
- 规划开发:帮助规划构建生成式人工智能项目,会讲解开发过程各阶段及需做决策,如选用现成基础模型还是自预训练模型,是否针对特定数据微调定制模型。
- 模型选择与评估:当前大语言模型众多,开发者纠结选择。要有评估方法并选合适规模。不同用例对模型要求不同,全面通用任务可能需巨型模型(千亿参数以上),单一任务如总结对话、客服代理等,小模型(十亿参数以下)也可能表现出色。