Generative AI with Large Language Models - Introduction Week1学习笔记（wee1-2）

最新推荐文章于 2025-11-26 22:45:19 发布

原创最新推荐文章于 2025-11-26 22:45:19 发布 · 397 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #学习

课程来源：https://www.coursera.org/learn/generative-ai-with-llms/
by DeepLearning.AI & Amazon Web Services

Transformer 网络工作原理

复杂但重要：这是个复杂话题，2017 年《Attention Is All You Need》论文阐述了 Transformer 架构内复杂数据处理过程。将从高层面审视并深入探讨自注意力及多头自注意力机制，以理解模型为何可行及如何理解语言。
持久领先：Transformer 架构问世久，在众多模型中仍处领先。
原理探究：很多人对其细微处了解不深，将讲解如多头注意力机制等术语原理，其以大规模并行方式运行，可在现代 GPU 上扩展，是 Transformer 成功原因之一。讲解会注重关键部分，让学习者获得直观理解以实际运用模型。
跨领域影响：虽课程聚焦文本，但 Transformer 架构为视觉 Transformer 等奠定基础，理解它有助于掌握其他模态，是机器学习关键组成部分。

生成式人工智能项目生命周期

规划开发：帮助规划构建生成式人工智能项目，会讲解开发过程各阶段及需做决策，如选用现成基础模型还是自预训练模型，是否针对特定数据微调定制模型。
模型选择与评估：当前大语言模型众多，开发者纠结选择。要有评估方法并选合适规模。不同用例对模型要求不同，全面通用任务可能需巨型模型（千亿参数以上），单一任务如总结对话、客服代理等，小模型（十亿参数以下）也可能表现出色。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

编程之季

关注关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hands-On Large Language Models - Jay Alammar 袋鼠书《动手学大语言模型》

04-02

Luis Serrano（Serrano Academy的创始人兼CEO）则强调了这本书在算法进化、理论严格性和实用指导方面的结合，使之成为对任何对生成式人工智能感兴趣的读者来说必不可少的读物。《动手学大语言模型》不仅提供了深入...

参与评论您还未登录，请先登录后发表或查看评论

Cog-GA: A Large Language Models-based Generative Agent forVision-Language Navigation

weixin_45800242的博客

12-30

1275

在连续环境中的视觉语言导航（VLN-CE）是具身人工智能（Embodied AI）中的一个前沿任务，要求智能体仅通过自然语言指令，在无限制的三维空间中自由导航。这一任务对多模态理解、空间推理和决策提出了独特挑战。为应对这些挑战，我们提出了一种基于大语言模型（LLMs）的生成式智能体Cog-GA，专为VLN-CE任务设计。Cog-GA 采用了双重策略来模拟类人认知过程。首先，它构建了认知地图，整合了时间、空间和语义元素，从而帮助 LLMs 发展空间记忆能力。

【大模型推理】FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU

qq_43543209的博客

04-25

2776

大型语言模型（LLMs）可能具有数十亿甚至数万亿的参数，这导致运行所需的计算和内存要求极高。例如，仅加载GPT-175B模型权重就需要325GB的GPU内存。要将这个模型适配到GPU上，至少需要五个A100（80GB）GPU和复杂的并行策略。因此，降低LLM推理的资源需求近年来引起了极大的关注。本文关注的是一种称为吞吐量导向的生成推理设置，它们通常需要对大量标记（例如，公司语料库中的所有文档）进行批处理的LLM推理，并且对延迟的敏感性较低。

Finetuning Generative Large Language Models with Discrimination Instructions for Knowledge Graph Com

weixin_43961909的博客

09-22

1729

传统知识图谱 (KG) 补全模型通过学习嵌入来预测缺失的事实。最近的研究尝试使用大型语言模型 (LLM) 以文本生成的方式完成 KG。然而，他们需要将 LLM 的输出接地到 KG 实体，这不可避免地会带来错误。在本文中，我们提出了一个微调框架 DIFT，旨在释放 LLM 的 KG 补全能力并避免接地错误。给定一个不完整的事实，DIFT 采用轻量级模型来获取候选实体，并使用判别指令对 LLM 进行微调以从给定的候选实体中选择正确的实体。

Generative-Pretraining-from-Pixels-V2

01-05

Generative预训练模型一直是深度学习和人工智能领域的一个重要研究方向。在《Generative-Pretraining-from-Pixels-V2》这篇论文中，研究者们探讨了基于像素的生成式预训练技术在图像表示学习方面的最新进展。本文...

基于学习的人工智能（1）为什么学习？

致力于大数据+AI 的应用创新。

11-24

257

学习是人类最重要的认知活动之一，贯穿我们的一生。出生后，我们无时无刻不在学习：从父母那里学说话，自己尝试走路，从小伙伴那里学会折纸飞机，从老师那里学到语文、数学等各种知识。研究人员始终将光源和风扇放在同一侧，经由学习，玉米幼苗逐渐学会了“有风的地方就会有光”的规律。之后，研究人员移去光源，并改变风扇方向，玉米幼苗依然按照所学知识，向风扇方向生长。1959 年，美国计算机学家亚瑟·塞缪尔设计了一款可以自我学习的跳棋程序，并将这一新方法称为“机器学习”，从而开启了机器自我学习的道路。

三大空间信息焕新：辉视让酒店服务、教育通知、监所管控更智能高效

CalebLXL的博客

11-24

551

走访这些场所后我发现，系统的真正价值不在于那些炫目的屏幕，而在于它构建了一套"空间信息免疫系统"——就像人体淋巴网络般，能智能识别各区域的信息需求，精准输送"营养"，快速清除"毒素"。当我们在酒店大堂不再错过末班机场大巴，在学校走廊偶遇恰好需要的竞赛通知，甚至在高墙内获得规整的信息权时，或许该重新思考：所谓智能化，本质是对空间信息代谢效率的一次外科手术式改造。这种荒诞的割裂感，正是传统信息分发模式崩溃的缩影——直到我最近走访数家采用辉视系统的场所，才意识到我们早已进入"精准信息触达"的新纪元。

（116页PPT）关于5G和新基建赋能智慧工地整体解决方案（附下载方式）

2501_92808811的博客

11-25

332

在整体架构方面，方案以“5G智慧工地平台”为核心，依托多类感知设备（如传感器、摄像头、AI眼镜、智能安全帽等）采集数据，通过5G网络实时回传至云平台，再借助大数据、云计算、人工智能等技术进行分析处理，最终在PC、手机、监控大屏等多终端进行可视化展示。此外，文件还详细列举了传统智慧工地子系统（如深基坑监测、升降机监控、扬尘噪音监测、智能水电计量等）的功能与部署方式，并补充了如5G企业专网、实测机器人、智慧科技体验中心等延伸应用，体现出方案的系统性与前瞻性。详细资料请看本解读文章的最后内容。

信息检索13

2301_80828873的博客

11-26

605

最近邻检索的方法，PQ，IVF,HNSW

中国计算机学会（CCF）推荐学术会议-A（人工智能）：ACL 2026

iaast的博客

11-24

455

大会官网：https://2026.aclweb.org/录用率：20.3%（1699/8360，2025年）时间地点：2026年7月2日-加州·美国。截稿时间：2026年1月5日。CCF推荐：A（人工智能）

RAG 的诞生：为了让 AI 不再“乱编”

weixin_44876263的博客

11-24

518

RAG全称，中文为“检索增强生成”。其核心思想是：在生成答案时，不仅依赖大模型内部的训练知识，还能够实时访问外部知识库或文档，从而生成更加准确和可靠的内容。就像一个学生回答问题，不仅依靠自己记忆，还会去图书馆查资料，然后结合记忆和查到的资料回答问题。你问模型：“请告诉我最新的新能源补贴政策。纯模型可能只靠训练记忆，回答的是过时或模糊的信息。RAG 模型会先去查最新政策文件，再结合训练知识生成答案，因此更准确。检索资料：先找到相关文档或信息。结合生成：把找到的资料和问题一起输入模型，让模型生成答案。

【LoRA（低秩适应）技术详解：原理、公式与实践】

m0_46882548的博客

11-26

563

参数高效：可训练参数量通常仅为全量微调的0.01% - 3%，极大降低了计算和存储成本。内存友好：由于大部分原始权重被冻结，无需存储其优化器状态，显著减少了训练时的显存占用。无推理延迟：训练后可将LoRA权重合并回原模型，推理速度与原始模型一致。模块化与灵活性：一个基础模型可以搭配多个针对不同任务的、体积很小（几兆字节）的LoRA适配器，轻松切换任务。减轻灾难性遗忘：因为原始权重基本不动，模型在适应新任务时更不容易遗忘预训练时获得的通用知识。

【NullSwap】NullSwap: Proactive Identity Cloaking Against Deepfake

人生不是轨道，是旷野。希望每天都有好心情。

11-23

329

由于生成模型的进步，被动检测高质量Deepfake图像的性能瓶颈，主动扰动提供了一种有前途的方法，通过将信号插入良性图像来禁用Deepfake操作。【生成模型的发展，使得生成高质量伪图越来越难被检测】然而，现有的主动扰动方法在以下几个方面仍然不能令人满意：【当前主动扰动存在的问题】1）由于直接元素添加而导致的视觉退化;2）对交换操纵的有效性有限;3）不可避免地依赖于白盒和灰盒设置，以在训练期间涉及生成模型。我们分析了深度伪造swap技术的本质，并论证了保护源身份而非目标图像的必要性。

EAGLE-2：通过动态草稿树加速语言模型推理

11-24

110

现代 Large Language Models（LLMs）的推理过程既昂贵又耗时，而 speculative sampling 已被证明是一种有效的解决方案。大多数 speculative sampling 方法（例如 EAGLE）使用静态的 draft tree，并默认 draft token 的接受率仅依赖于其位置。有趣的是，我们发现 draft token 的接受率也依赖于上下文。本文在 EAGLE 的基础上提出了，该方法引入了一种新的技术用于 draft 建模。

强化学习人形机器人奖励函数分析

ModestCoder_的博客

11-23

1046

PPO (Proximal Policy Optimization) 是一种 Actor-Critic 架构算法。奖励函数是整个学习过程的指挥棒。学习预测未来的累积回报（Return）。用于处理物理限制的软约束，形式通常为单边损失（Hinge Loss）。，作为 Cost/Penalty 使用，用于约束能量和保持稳定。以下是代码中各个奖励项的数学表达及其物理含义分析。形式，旨在最大化机器人对指令的跟随精度。这种设计是现代机器人控制领域的标准范式。形式，在总奖励计算中通常会被赋予。

教你使用服务器搭建一款一款端到端的开源 OCR 模型GOT-OCR2.0

m0_69484557的博客

11-25

149

GOT-OCR2.0 是一款真正专业级、可落地的端到端开源 OCR 模型，它让文档识别变得更智能、更精准、更高效。当你将它部署在莱卡云服务器上后，就拥有：一个稳定的 OCR 服务平台一个云端智能识别中心一个支持批量处理的高效工具一个可扩展的文档自动化系统。

分布式AI训练框架设计与多语言实现实践指南

2501_94187056的博客

11-26

152

加速训练：多节点协作处理大规模数据和模型参数。资源优化：充分利用GPU/TPU和计算集群资源。可扩展性：可根据数据规模或模型复杂度扩展计算节点。多语言协作：不同模块可使用适合的语言实现，提高灵活性和性能。本文展示了分布式AI训练框架的设计与多语言实现实践：Python负责训练与分布式管理Go负责任务调度与节点管理Java处理异步参数同步C++完成计算密集型梯度计算架构整合多节点资源，实现高效分布式训练。

《AI智脉速递》2025 年 11月7日 - 11月23日

mao_feng的博客

11-23

511

蚂蚁集团推出的全模态 AI 助手 “灵光” 上线 4 天下载量突破 100 万，较 ChatGPT、Sora2 更快达成百万用户里程碑，登顶 App Store 工具榜第一。该项目由日本八大巨头联合推动，旨在打破台积电、三星垄断，为全球 AI 大模型提供先进算力硬件支撑。AI 数据中心的超高能耗推动储能系统从 “可选” 变 “必备”，相关市场需求呈爆发式增长，英伟达黄仁勋称能源成本将重塑 AI 竞争格局。华谊兄弟启动 “H・AI 火种计划”，将 AI 与 CG 技术、真人实拍结合，批量制作影视内容。

【深度学习新浪潮】什么是自监督学习？