Generative AI with Large Language Models - Introduction Week1学习笔记(wee1-2)

课程来源:https://www.coursera.org/learn/generative-ai-with-llms/
by DeepLearning.AI & Amazon Web Services

Transformer 网络工作原理

  • 复杂但重要:这是个复杂话题,2017 年《Attention Is All You Need》论文阐述了 Transformer 架构内复杂数据处理过程。将从高层面审视并深入探讨自注意力及多头自注意力机制,以理解模型为何可行及如何理解语言。
  • 持久领先:Transformer 架构问世久,在众多模型中仍处领先。
  • 原理探究:很多人对其细微处了解不深,将讲解如多头注意力机制等术语原理,其以大规模并行方式运行,可在现代 GPU 上扩展,是 Transformer 成功原因之一。讲解会注重关键部分,让学习者获得直观理解以实际运用模型。
  • 跨领域影响:虽课程聚焦文本,但 Transformer 架构为视觉 Transformer 等奠定基础,理解它有助于掌握其他模态,是机器学习关键组成部分。

生成式人工智能项目生命周期

  • 规划开发:帮助规划构建生成式人工智能项目,会讲解开发过程各阶段及需做决策,如选用现成基础模型还是自预训练模型,是否针对特定数据微调定制模型。
  • 模型选择与评估:当前大语言模型众多,开发者纠结选择。要有评估方法并选合适规模。不同用例对模型要求不同,全面通用任务可能需巨型模型(千亿参数以上),单一任务如总结对话、客服代理等,小模型(十亿参数以下)也可能表现出色。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值