自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 AI技术学习笔记系列007:深度解析 EP(Execution Provider)、FlashMLA 和 TritonMLA

EP(Execution Provider)是的核心组件之一,负责将 ONNX 格式的 AI 模型映射到不同的计算后端,以实现推理加速。ONNX Runtime 通过不同的 EP 支持多种硬件平台,如 CPU、GPU、FPGA 以及专用 AI 加速芯片。FlashMLA(Flash Machine Learning Accelerator)是Meta开发的一种专门用于Transformer 模型推理的优化技术。它基于算法,极大地提高了 GPU 计算效率,适用于大型语言模型(如 LLaMA、GPT-3)。

2025-03-27 07:43:00 511

原创 AI技术学习笔记系列006:一文了解MCP前因后果

发展计划发布:Anthropic提出2025年上半年优先事项,包括远程连接支持(OAuth 2.0认证)、代理工作流优化(分层代理、流式结果)及开发者工具完善(包管理、沙盒化)5。协议增强提案(MEP):推出MEP-001,扩展多模态接口(如AR/VR、脑机接口),白皮书草案内部公开14。社区推出MCP导航站(如http://mcp.so),聚合第三方MCP Server资源,形成初步生态14。Block、Apollo等公司率先集成MCP,优化客户服务AI的实时数据调用(如订单查询、API操作)16。

2025-03-22 10:10:58 467

原创 AI技术学习笔记系列005:CUDA Graph

CUDA Graph 通过预定义和复用 GPU 操作图,优化了固定工作流的执行效率,尤其适合高重复性任务。开发者可通过显式创建或流捕获灵活构建图,结合 CUDA 11+ 的节点更新功能,进一步平衡性能与灵活性。正确使用时,它能显著减少 CPU 开销,提升 GPU 利用率。CUDA Graph 是 NVIDIA CUDA 平台中用于优化 GPU 工作流执行效率的机制。它通过将一系列 GPU 操作(如内核启动、内存拷贝等)预定义为有向图结构,减少 CPU 与 GPU 之间的交互开销,从而提高性能。

2025-03-16 12:00:12 921

原创 AI技术学习笔记系列004:GPU常识

从研发投入、性能指标到生态布局,Blackwell不仅延续了英伟达的技术霸权,更将AI算力推向了新的高度,成为2020年代中后期全球AI基础设施的核心支柱。显卡通信技术的提升(如HBM3e、NVLink)与AI专用硬件(Tensor Core、NPU)的演进,共同推动了AI计算的高效化与平民化。未来,随着Chiplet、存算一体等技术的成熟,显卡将进一步模糊与专用AI芯片的边界,成为异构计算的“万能胶水”,推动游戏、创作与科学计算的全面革新。显卡架构是GPU设计的核心,不同厂商有其独特的架构演进。

2025-03-16 10:53:21 1072

原创 AI技术学习笔记系列003:`liger_kernel`、`flashattn2` 和 `unsloth` 介绍

是深度学习框架中与计算加速和内存优化相关的技术模块。如需更详细的实现原理或性能数据,建议参考各项目的官方文档或源码仓库。根据目前可查的公开资料(截至2025年3月15日),

2025-03-15 17:00:00 821

原创 AI技术学习笔记系列002:RoPE 插值方法

(Rotary Position Embedding Interpolation)是一种用于扩展基于旋转位置编码(Rotary Position Embedding, RoPE)的模型(如 LLaMA、GPT-NeoX 等)上下文窗口(context window)的技术。它的核心目的是让模型在的情况下,支持处理比训练时更长的输入序列(例如从 4k tokens 扩展到 16k tokens)。RoPE 是一种位置编码方法,通过将位置信息融入注意力机制中。

2025-03-15 12:39:28 304

原创 AI技术学习笔记系列001:FastLanguageModel.get_peft_model 函数各参数的详细解释

以下是关于代码中。

2025-03-15 12:37:48 1236

原创 大模型基础技术理论第七章:应用与发展方向

此外,模型可能会泄露训练数据中的隐私信息,尤其是当模型规模和数据集较大时,如何保护用户隐私和数据安全是语言模型发展中的一大挑战。当前的大多数语言模型仅处理单一形式的数据(文本),但在实际应用中,用户的输入往往是多模态的,如语音、图像、视频等。未来,随着计算资源的优化、模型的智能化和安全性的提升,语言模型将能够更好地服务于社会的各个层面,推动技术的进步和人类生活质量的提升。在实际应用中,随着模型性能的提升,更多领域也开始采用语言模型,如医疗领域的智能问诊系统、法律领域的自动文书生成工具等。

2024-09-20 09:55:09 687

原创 大模型基础技术理论第六章:推理与部署优化

令I_max=计算平台算力/计算平台带宽,当模型的计算强度I小于平台的理论计算强度I_max,模型的计算能力P即I*beta,当模型的计算强度大于I_max,则模型的计算性能P等于平台的算力。故若模型的计算强度小,则瓶颈在带宽,若模型的计算强度大,则瓶颈在算力。与训练阶段相比,推理通常需要更快的响应速度和更低的资源消耗,尤其是在生产环境中,推理的效率直接影响系统的用户体验和成本。在模型并行中,模型的各个部分被分配到不同的机器上进行计算,这种方式适用于超大规模模型,如 GPT-3 这类拥有数十亿参数的模型。

2024-09-20 09:54:20 1231

原创 大模型基础技术理论第五章:模型训练与部署

每块GPU上只保存部分参数W,做forward时,对W做一次 **All-Gather** ,取回分布在别的GPU上的W,得到一份完整的W, **forward做完,立刻把不是自己维护的W抛弃,做backward时,对W做一次All-Gather,取回完整的W,backward做完,立刻把不是自己维护的W抛弃. 做完backward,算得一份完整的梯度G,对G做一次Reduce-Scatter,从别的GPU上聚合自己维护的那部分梯度,聚合操作结束后,立刻把不是自己维护的G抛弃。

2024-09-20 09:52:58 1097

原创 大模型基础技术理论第四章:主流语言模型介绍与对比

在 T5 中,输入文本被转换为一种特定的格式(如翻译任务中的源语言文本,或分类任务中的句子描述),然后模型生成相应的输出文本。T5 的核心创新点在于它的统一框架。人类在思考时会沿着一个链式的推理,回溯,再尝试一个新的方向,并把之前的链的优点保留,缺点剔除,与当前探索的链的方向结合生成一个新的解决方案。- 针对训练过程中缺乏细粒度的监督信号, 即没有考虑到正样本对之间的相似性差异,引入来自LLM的AI反馈,构造具有不同相似度的样本对,并对这些样本对给出细粒度的相似度分数作为监督信号,帮助文本表示的学习。

2024-09-20 09:51:28 576

原创 大模型基础技术理论第三章:模型量化与推理优化

量化的主要目标是在不显著降低模型性能的前提下,通过降低表示的精度,减少模型在推理过程中的计算负荷和内存占用。模型量化(Quantization)是一种常用的优化技术,它的核心思想是将模型的权重和激活值从高精度的浮点数(如32位浮点数)压缩为低精度表示(如8位或更低),从而减少计算复杂性和存储成本。传统的量化方法仅考虑模型权重的量化,而忽略了激活值的变化范围。通过这种方式,AWQ 能够在模型量化中更准确地捕捉激活值的变化,从而提升量化模型的精度和计算效率,特别适合资源受限的设备应用,如移动设备和嵌入式系统。

2024-09-20 09:48:33 1315

原创 大模型基础技术理论第二章:自然语言处理基础

这种表示方式能够捕捉到词语的上下文关系,例如,“国王”和“皇后”在向量空间中距离较近,同时“男人”和“女人”之间的向量差异也能够表现出类似的语义关系。在词向量的表示方式中,每个词的语义信息不再是一个独立的符号,而是通过向量的维度之间的关系进行表达。Transformer 架构首次在2017年由 Vaswani 等人提出,论文《Attention is All You Need》彻底摆脱了 RNN 的序列处理方式,提出了自注意力机制和多头注意力机制,从而大幅提升了模型的并行计算能力和对全局信息的捕捉能力。

2024-09-20 09:46:28 1247

原创 大模型基础技术理论第一章:深度学习基础

深度学习基础

2024-09-20 09:45:06 892

原创 开源大模型集成框架&工具&脚手架清单

开源大模型集成框架&工具&脚手架清单

2024-08-11 09:30:11 101

原创 AI历史了解

1950年:阿兰·图灵提出了“图灵测试”概念,这是首次探讨人工智能能否达到人类智能水平的问题。1956年:达特茅斯会议在美国新罕布什尔州召开,标志着人工智能领域的正式起步。约翰·麦卡锡等学者提出了“人工智能”的概念。1966年:约翰·麦卡锡等人发表了《人工智能:一种现代的方法》一书,系统地阐述了人工智能的哲学和方法论。1980年代:专家系统的兴起,将人类专家的知识和经验转化为计算机程序,为人工智能的应用奠定了基础。1997年:IBM的“深蓝”计算机战胜了国际象棋世界冠军卡斯帕罗夫,标志着人工智能在

2024-08-10 20:41:30 142

原创 AI学习计划思考

参与学术研究和知识分享:积极参与人工智能领域的学术研究和知识分享,发表论文、参加学术会议等,与同行学者交流合作,推动人工智能技术的发展和应用。深入研究领域:选择特定的领域(如计算机视觉、语音识别等)进行深入研究,向更高级的算法和技术迈进,并了解最新的研究进展和应用案例。了解人工智能的基本概念和原理:开始学习人工智能的基础知识,包括机器学习、深度学习和自然语言处理等方面的基本概念和原理。持续学习和更新知识:人工智能领域发展迅速,要持续学习和更新知识,关注最新的研究成果和技术进展,保持与行业前沿的连接。

2024-08-10 20:39:56 285

原创 开源大模型模型加载方式清单

梳理开源大模型的模型加载的一些方式

2024-08-09 14:32:57 209

原创 开源大模型下载方式清单

下载大模型文件的方式清单

2024-08-08 10:12:45 847

原创 开源大模型仓库清单

开源大模型仓库清单。

2024-08-07 22:43:14 340

原创 手撕低成本全收工DIY机器人5

如果你没有看到与你的 USB 外置声卡相关的模块,可能需要加载相应的模块。再次检查内核模块: 确保适当的内核模块已加载,以支持你的 USB 外置声卡。lsusb 检查usb设备是否正常加载,也可以通过dmesg查看日志。可以通过alsamixer调整各个音频通道和设备映射关系。接入HDMI,通过speaker-test测试音频输出。外置音箱(3.5mm音频接入)至此音频播放接口集成完毕。

2023-12-27 13:49:27 678 1

原创 手撕低成本全收工DIY机器人4

可以通过远程看到摄像头。通过usb接入摄像头。

2023-12-21 17:35:19 433

原创 手撕低成本全收工DIY机器人3

相机标定结果文件拷贝到相应目录。安装usb-cam相关库。查看usb 摄像头设备。通过usb接入摄像头。结合openCV验证。至此摄像头集成完成。

2023-12-20 18:20:02 819

原创 手撕低成本全收工DIY机器人2

【代码】手撕低成本全收工DIY机器人2。

2023-12-20 11:28:22 435

原创 手撕低成本全收工DIY机器人1

【代码】手撕低成本全收工DIY机器人1。

2023-12-15 16:28:48 700

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除