- 博客(25)
- 收藏
- 关注
原创 AI技术学习笔记系列007:深度解析 EP(Execution Provider)、FlashMLA 和 TritonMLA
EP(Execution Provider)是的核心组件之一,负责将 ONNX 格式的 AI 模型映射到不同的计算后端,以实现推理加速。ONNX Runtime 通过不同的 EP 支持多种硬件平台,如 CPU、GPU、FPGA 以及专用 AI 加速芯片。FlashMLA(Flash Machine Learning Accelerator)是Meta开发的一种专门用于Transformer 模型推理的优化技术。它基于算法,极大地提高了 GPU 计算效率,适用于大型语言模型(如 LLaMA、GPT-3)。
2025-03-27 07:43:00
511
原创 AI技术学习笔记系列006:一文了解MCP前因后果
发展计划发布:Anthropic提出2025年上半年优先事项,包括远程连接支持(OAuth 2.0认证)、代理工作流优化(分层代理、流式结果)及开发者工具完善(包管理、沙盒化)5。协议增强提案(MEP):推出MEP-001,扩展多模态接口(如AR/VR、脑机接口),白皮书草案内部公开14。社区推出MCP导航站(如http://mcp.so),聚合第三方MCP Server资源,形成初步生态14。Block、Apollo等公司率先集成MCP,优化客户服务AI的实时数据调用(如订单查询、API操作)16。
2025-03-22 10:10:58
467
原创 AI技术学习笔记系列005:CUDA Graph
CUDA Graph 通过预定义和复用 GPU 操作图,优化了固定工作流的执行效率,尤其适合高重复性任务。开发者可通过显式创建或流捕获灵活构建图,结合 CUDA 11+ 的节点更新功能,进一步平衡性能与灵活性。正确使用时,它能显著减少 CPU 开销,提升 GPU 利用率。CUDA Graph 是 NVIDIA CUDA 平台中用于优化 GPU 工作流执行效率的机制。它通过将一系列 GPU 操作(如内核启动、内存拷贝等)预定义为有向图结构,减少 CPU 与 GPU 之间的交互开销,从而提高性能。
2025-03-16 12:00:12
921
原创 AI技术学习笔记系列004:GPU常识
从研发投入、性能指标到生态布局,Blackwell不仅延续了英伟达的技术霸权,更将AI算力推向了新的高度,成为2020年代中后期全球AI基础设施的核心支柱。显卡通信技术的提升(如HBM3e、NVLink)与AI专用硬件(Tensor Core、NPU)的演进,共同推动了AI计算的高效化与平民化。未来,随着Chiplet、存算一体等技术的成熟,显卡将进一步模糊与专用AI芯片的边界,成为异构计算的“万能胶水”,推动游戏、创作与科学计算的全面革新。显卡架构是GPU设计的核心,不同厂商有其独特的架构演进。
2025-03-16 10:53:21
1072
原创 AI技术学习笔记系列003:`liger_kernel`、`flashattn2` 和 `unsloth` 介绍
是深度学习框架中与计算加速和内存优化相关的技术模块。如需更详细的实现原理或性能数据,建议参考各项目的官方文档或源码仓库。根据目前可查的公开资料(截至2025年3月15日),
2025-03-15 17:00:00
821
原创 AI技术学习笔记系列002:RoPE 插值方法
(Rotary Position Embedding Interpolation)是一种用于扩展基于旋转位置编码(Rotary Position Embedding, RoPE)的模型(如 LLaMA、GPT-NeoX 等)上下文窗口(context window)的技术。它的核心目的是让模型在的情况下,支持处理比训练时更长的输入序列(例如从 4k tokens 扩展到 16k tokens)。RoPE 是一种位置编码方法,通过将位置信息融入注意力机制中。
2025-03-15 12:39:28
304
原创 大模型基础技术理论第七章:应用与发展方向
此外,模型可能会泄露训练数据中的隐私信息,尤其是当模型规模和数据集较大时,如何保护用户隐私和数据安全是语言模型发展中的一大挑战。当前的大多数语言模型仅处理单一形式的数据(文本),但在实际应用中,用户的输入往往是多模态的,如语音、图像、视频等。未来,随着计算资源的优化、模型的智能化和安全性的提升,语言模型将能够更好地服务于社会的各个层面,推动技术的进步和人类生活质量的提升。在实际应用中,随着模型性能的提升,更多领域也开始采用语言模型,如医疗领域的智能问诊系统、法律领域的自动文书生成工具等。
2024-09-20 09:55:09
687
原创 大模型基础技术理论第六章:推理与部署优化
令I_max=计算平台算力/计算平台带宽,当模型的计算强度I小于平台的理论计算强度I_max,模型的计算能力P即I*beta,当模型的计算强度大于I_max,则模型的计算性能P等于平台的算力。故若模型的计算强度小,则瓶颈在带宽,若模型的计算强度大,则瓶颈在算力。与训练阶段相比,推理通常需要更快的响应速度和更低的资源消耗,尤其是在生产环境中,推理的效率直接影响系统的用户体验和成本。在模型并行中,模型的各个部分被分配到不同的机器上进行计算,这种方式适用于超大规模模型,如 GPT-3 这类拥有数十亿参数的模型。
2024-09-20 09:54:20
1231
原创 大模型基础技术理论第五章:模型训练与部署
每块GPU上只保存部分参数W,做forward时,对W做一次 **All-Gather** ,取回分布在别的GPU上的W,得到一份完整的W, **forward做完,立刻把不是自己维护的W抛弃,做backward时,对W做一次All-Gather,取回完整的W,backward做完,立刻把不是自己维护的W抛弃. 做完backward,算得一份完整的梯度G,对G做一次Reduce-Scatter,从别的GPU上聚合自己维护的那部分梯度,聚合操作结束后,立刻把不是自己维护的G抛弃。
2024-09-20 09:52:58
1097
原创 大模型基础技术理论第四章:主流语言模型介绍与对比
在 T5 中,输入文本被转换为一种特定的格式(如翻译任务中的源语言文本,或分类任务中的句子描述),然后模型生成相应的输出文本。T5 的核心创新点在于它的统一框架。人类在思考时会沿着一个链式的推理,回溯,再尝试一个新的方向,并把之前的链的优点保留,缺点剔除,与当前探索的链的方向结合生成一个新的解决方案。- 针对训练过程中缺乏细粒度的监督信号, 即没有考虑到正样本对之间的相似性差异,引入来自LLM的AI反馈,构造具有不同相似度的样本对,并对这些样本对给出细粒度的相似度分数作为监督信号,帮助文本表示的学习。
2024-09-20 09:51:28
576
原创 大模型基础技术理论第三章:模型量化与推理优化
量化的主要目标是在不显著降低模型性能的前提下,通过降低表示的精度,减少模型在推理过程中的计算负荷和内存占用。模型量化(Quantization)是一种常用的优化技术,它的核心思想是将模型的权重和激活值从高精度的浮点数(如32位浮点数)压缩为低精度表示(如8位或更低),从而减少计算复杂性和存储成本。传统的量化方法仅考虑模型权重的量化,而忽略了激活值的变化范围。通过这种方式,AWQ 能够在模型量化中更准确地捕捉激活值的变化,从而提升量化模型的精度和计算效率,特别适合资源受限的设备应用,如移动设备和嵌入式系统。
2024-09-20 09:48:33
1315
原创 大模型基础技术理论第二章:自然语言处理基础
这种表示方式能够捕捉到词语的上下文关系,例如,“国王”和“皇后”在向量空间中距离较近,同时“男人”和“女人”之间的向量差异也能够表现出类似的语义关系。在词向量的表示方式中,每个词的语义信息不再是一个独立的符号,而是通过向量的维度之间的关系进行表达。Transformer 架构首次在2017年由 Vaswani 等人提出,论文《Attention is All You Need》彻底摆脱了 RNN 的序列处理方式,提出了自注意力机制和多头注意力机制,从而大幅提升了模型的并行计算能力和对全局信息的捕捉能力。
2024-09-20 09:46:28
1247
原创 AI历史了解
1950年:阿兰·图灵提出了“图灵测试”概念,这是首次探讨人工智能能否达到人类智能水平的问题。1956年:达特茅斯会议在美国新罕布什尔州召开,标志着人工智能领域的正式起步。约翰·麦卡锡等学者提出了“人工智能”的概念。1966年:约翰·麦卡锡等人发表了《人工智能:一种现代的方法》一书,系统地阐述了人工智能的哲学和方法论。1980年代:专家系统的兴起,将人类专家的知识和经验转化为计算机程序,为人工智能的应用奠定了基础。1997年:IBM的“深蓝”计算机战胜了国际象棋世界冠军卡斯帕罗夫,标志着人工智能在
2024-08-10 20:41:30
142
原创 AI学习计划思考
参与学术研究和知识分享:积极参与人工智能领域的学术研究和知识分享,发表论文、参加学术会议等,与同行学者交流合作,推动人工智能技术的发展和应用。深入研究领域:选择特定的领域(如计算机视觉、语音识别等)进行深入研究,向更高级的算法和技术迈进,并了解最新的研究进展和应用案例。了解人工智能的基本概念和原理:开始学习人工智能的基础知识,包括机器学习、深度学习和自然语言处理等方面的基本概念和原理。持续学习和更新知识:人工智能领域发展迅速,要持续学习和更新知识,关注最新的研究成果和技术进展,保持与行业前沿的连接。
2024-08-10 20:39:56
285
原创 手撕低成本全收工DIY机器人5
如果你没有看到与你的 USB 外置声卡相关的模块,可能需要加载相应的模块。再次检查内核模块: 确保适当的内核模块已加载,以支持你的 USB 外置声卡。lsusb 检查usb设备是否正常加载,也可以通过dmesg查看日志。可以通过alsamixer调整各个音频通道和设备映射关系。接入HDMI,通过speaker-test测试音频输出。外置音箱(3.5mm音频接入)至此音频播放接口集成完毕。
2023-12-27 13:49:27
678
1
原创 手撕低成本全收工DIY机器人3
相机标定结果文件拷贝到相应目录。安装usb-cam相关库。查看usb 摄像头设备。通过usb接入摄像头。结合openCV验证。至此摄像头集成完成。
2023-12-20 18:20:02
819
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人