新说一二-优快云博客

原创 AI技术学习笔记系列007：深度解析 EP（Execution Provider）、FlashMLA 和 TritonMLA

EP（Execution Provider）是的核心组件之一，负责将 ONNX 格式的 AI 模型映射到不同的计算后端，以实现推理加速。ONNX Runtime 通过不同的 EP 支持多种硬件平台，如 CPU、GPU、FPGA 以及专用 AI 加速芯片。FlashMLA（Flash Machine Learning Accelerator）是Meta开发的一种专门用于Transformer 模型推理的优化技术。它基于算法，极大地提高了 GPU 计算效率，适用于大型语言模型（如 LLaMA、GPT-3）。

2025-03-27 07:43:00 511

原创 AI技术学习笔记系列006：一文了解MCP前因后果

发展计划发布：Anthropic提出2025年上半年优先事项，包括远程连接支持（OAuth 2.0认证）、代理工作流优化（分层代理、流式结果）及开发者工具完善（包管理、沙盒化）5。协议增强提案（MEP）：推出MEP-001，扩展多模态接口（如AR/VR、脑机接口），白皮书草案内部公开14。社区推出MCP导航站（如http://mcp.so），聚合第三方MCP Server资源，形成初步生态14。Block、Apollo等公司率先集成MCP，优化客户服务AI的实时数据调用（如订单查询、API操作）16。

2025-03-22 10:10:58 467

原创 AI技术学习笔记系列005：CUDA Graph

CUDA Graph 通过预定义和复用 GPU 操作图，优化了固定工作流的执行效率，尤其适合高重复性任务。开发者可通过显式创建或流捕获灵活构建图，结合 CUDA 11+ 的节点更新功能，进一步平衡性能与灵活性。正确使用时，它能显著减少 CPU 开销，提升 GPU 利用率。CUDA Graph 是 NVIDIA CUDA 平台中用于优化 GPU 工作流执行效率的机制。它通过将一系列 GPU 操作（如内核启动、内存拷贝等）预定义为有向图结构，减少 CPU 与 GPU 之间的交互开销，从而提高性能。

2025-03-16 12:00:12 921

原创 AI技术学习笔记系列004：GPU常识

从研发投入、性能指标到生态布局，Blackwell不仅延续了英伟达的技术霸权，更将AI算力推向了新的高度，成为2020年代中后期全球AI基础设施的核心支柱。显卡通信技术的提升（如HBM3e、NVLink）与AI专用硬件（Tensor Core、NPU）的演进，共同推动了AI计算的高效化与平民化。未来，随着Chiplet、存算一体等技术的成熟，显卡将进一步模糊与专用AI芯片的边界，成为异构计算的“万能胶水”，推动游戏、创作与科学计算的全面革新。显卡架构是GPU设计的核心，不同厂商有其独特的架构演进。

2025-03-16 10:53:21 1072

原创 AI技术学习笔记系列003：`liger_kernel`、`flashattn2` 和 `unsloth` 介绍

是深度学习框架中与计算加速和内存优化相关的技术模块。如需更详细的实现原理或性能数据，建议参考各项目的官方文档或源码仓库。根据目前可查的公开资料（截至2025年3月15日），

2025-03-15 17:00:00 821

原创 AI技术学习笔记系列002：RoPE 插值方法

（Rotary Position Embedding Interpolation）是一种用于扩展基于旋转位置编码（Rotary Position Embedding, RoPE）的模型（如 LLaMA、GPT-NeoX 等）上下文窗口（context window）的技术。它的核心目的是让模型在的情况下，支持处理比训练时更长的输入序列（例如从 4k tokens 扩展到 16k tokens）。RoPE 是一种位置编码方法，通过将位置信息融入注意力机制中。

2025-03-15 12:39:28 304

原创 AI技术学习笔记系列001：FastLanguageModel.get_peft_model 函数各参数的详细解释

以下是关于代码中。

2025-03-15 12:37:48 1236

原创大模型基础技术理论第七章：应用与发展方向

此外，模型可能会泄露训练数据中的隐私信息，尤其是当模型规模和数据集较大时，如何保护用户隐私和数据安全是语言模型发展中的一大挑战。当前的大多数语言模型仅处理单一形式的数据（文本），但在实际应用中，用户的输入往往是多模态的，如语音、图像、视频等。未来，随着计算资源的优化、模型的智能化和安全性的提升，语言模型将能够更好地服务于社会的各个层面，推动技术的进步和人类生活质量的提升。在实际应用中，随着模型性能的提升，更多领域也开始采用语言模型，如医疗领域的智能问诊系统、法律领域的自动文书生成工具等。

2024-09-20 09:55:09 687

原创大模型基础技术理论第六章：推理与部署优化

令I_max=计算平台算力/计算平台带宽，当模型的计算强度I小于平台的理论计算强度I_max，模型的计算能力P即I*beta,当模型的计算强度大于I_max,则模型的计算性能P等于平台的算力。故若模型的计算强度小，则瓶颈在带宽，若模型的计算强度大，则瓶颈在算力。与训练阶段相比，推理通常需要更快的响应速度和更低的资源消耗，尤其是在生产环境中，推理的效率直接影响系统的用户体验和成本。在模型并行中，模型的各个部分被分配到不同的机器上进行计算，这种方式适用于超大规模模型，如 GPT-3 这类拥有数十亿参数的模型。

2024-09-20 09:54:20 1231

原创大模型基础技术理论第五章：模型训练与部署

每块GPU上只保存部分参数W，做forward时，对W做一次 **All-Gather** ，取回分布在别的GPU上的W，得到一份完整的W， **forward做完，立刻把不是自己维护的W抛弃，做backward时，对W做一次All-Gather，取回完整的W，backward做完，立刻把不是自己维护的W抛弃. 做完backward，算得一份完整的梯度G，对G做一次Reduce-Scatter，从别的GPU上聚合自己维护的那部分梯度,聚合操作结束后，立刻把不是自己维护的G抛弃。

2024-09-20 09:52:58 1097

原创大模型基础技术理论第四章：主流语言模型介绍与对比

在 T5 中，输入文本被转换为一种特定的格式（如翻译任务中的源语言文本，或分类任务中的句子描述），然后模型生成相应的输出文本。T5 的核心创新点在于它的统一框架。人类在思考时会沿着一个链式的推理，回溯，再尝试一个新的方向，并把之前的链的优点保留，缺点剔除，与当前探索的链的方向结合生成一个新的解决方案。- 针对训练过程中缺乏细粒度的监督信号，即没有考虑到正样本对之间的相似性差异，引入来自LLM的AI反馈，构造具有不同相似度的样本对，并对这些样本对给出细粒度的相似度分数作为监督信号，帮助文本表示的学习。

2024-09-20 09:51:28 576

原创大模型基础技术理论第三章：模型量化与推理优化

量化的主要目标是在不显著降低模型性能的前提下，通过降低表示的精度，减少模型在推理过程中的计算负荷和内存占用。模型量化（Quantization）是一种常用的优化技术，它的核心思想是将模型的权重和激活值从高精度的浮点数（如32位浮点数）压缩为低精度表示（如8位或更低），从而减少计算复杂性和存储成本。传统的量化方法仅考虑模型权重的量化，而忽略了激活值的变化范围。通过这种方式，AWQ 能够在模型量化中更准确地捕捉激活值的变化，从而提升量化模型的精度和计算效率，特别适合资源受限的设备应用，如移动设备和嵌入式系统。

2024-09-20 09:48:33 1315

原创大模型基础技术理论第二章：自然语言处理基础

这种表示方式能够捕捉到词语的上下文关系，例如，“国王”和“皇后”在向量空间中距离较近，同时“男人”和“女人”之间的向量差异也能够表现出类似的语义关系。在词向量的表示方式中，每个词的语义信息不再是一个独立的符号，而是通过向量的维度之间的关系进行表达。Transformer 架构首次在2017年由 Vaswani 等人提出，论文《Attention is All You Need》彻底摆脱了 RNN 的序列处理方式，提出了自注意力机制和多头注意力机制，从而大幅提升了模型的并行计算能力和对全局信息的捕捉能力。

2024-09-20 09:46:28 1247

原创大模型基础技术理论第一章：深度学习基础

深度学习基础

2024-09-20 09:45:06 892

原创开源大模型集成框架&工具&脚手架清单

开源大模型集成框架&工具&脚手架清单

2024-08-11 09:30:11 101

原创 AI历史了解

1950年：阿兰·图灵提出了“图灵测试”概念，这是首次探讨人工智能能否达到人类智能水平的问题。1956年：达特茅斯会议在美国新罕布什尔州召开，标志着人工智能领域的正式起步。约翰·麦卡锡等学者提出了“人工智能”的概念。1966年：约翰·麦卡锡等人发表了《人工智能：一种现代的方法》一书，系统地阐述了人工智能的哲学和方法论。1980年代：专家系统的兴起，将人类专家的知识和经验转化为计算机程序，为人工智能的应用奠定了基础。1997年：IBM的“深蓝”计算机战胜了国际象棋世界冠军卡斯帕罗夫，标志着人工智能在

2024-08-10 20:41:30 142

原创 AI学习计划思考

参与学术研究和知识分享：积极参与人工智能领域的学术研究和知识分享，发表论文、参加学术会议等，与同行学者交流合作，推动人工智能技术的发展和应用。深入研究领域：选择特定的领域（如计算机视觉、语音识别等）进行深入研究，向更高级的算法和技术迈进，并了解最新的研究进展和应用案例。了解人工智能的基本概念和原理：开始学习人工智能的基础知识，包括机器学习、深度学习和自然语言处理等方面的基本概念和原理。持续学习和更新知识：人工智能领域发展迅速，要持续学习和更新知识，关注最新的研究成果和技术进展，保持与行业前沿的连接。

2024-08-10 20:39:56 285

beifeng20200101的博客

原创 AI技术学习笔记系列007：深度解析 EP（Execution Provider）、FlashMLA 和 TritonMLA

原创 AI技术学习笔记系列006：一文了解MCP前因后果

原创 AI技术学习笔记系列005：CUDA Graph

原创 AI技术学习笔记系列004：GPU常识

原创 AI技术学习笔记系列003：`liger_kernel`、`flashattn2` 和 `unsloth` 介绍

原创 AI技术学习笔记系列002：RoPE 插值方法

原创 AI技术学习笔记系列001：FastLanguageModel.get_peft_model 函数各参数的详细解释

原创大模型基础技术理论第七章：应用与发展方向

原创大模型基础技术理论第六章：推理与部署优化

原创大模型基础技术理论第五章：模型训练与部署

原创大模型基础技术理论第四章：主流语言模型介绍与对比

原创大模型基础技术理论第三章：模型量化与推理优化

原创大模型基础技术理论第二章：自然语言处理基础

原创大模型基础技术理论第一章：深度学习基础

原创开源大模型集成框架&工具&脚手架清单

原创 AI历史了解

原创 AI学习计划思考

原创开源大模型模型加载方式清单

原创开源大模型下载方式清单

原创开源大模型仓库清单

原创手撕低成本全收工DIY机器人5

原创手撕低成本全收工DIY机器人4

原创手撕低成本全收工DIY机器人3

原创手撕低成本全收工DIY机器人2

原创手撕低成本全收工DIY机器人1

空空如也

空空如也