自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 大模型最新面试题系列:模型部署(一)

通过。

2025-04-04 09:39:05 738

原创 Qwen最新多模态大模型:Qwen2.5-Omni介绍与快速入门

近日,Qwen2.5-Omni正式发布了!这是Qwen系列中全新的旗舰级端到端多模态大模型,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。Qwen2.5-omni 的发布,在人工智能领域掀起了波澜,其创新性的技术架构为多模态交互带来了前所未有的变革。下面我们深入剖析其核心技术,理解它是如何重塑多模态交互格局的。

2025-03-30 20:30:00 879

原创 大模型最新面试题系列:微调篇之微调框架(三)

在PyTorch中,可以使用来实现cosine decay with warmup。

2025-03-29 20:39:56 1015

原创 大模型最新面试题系列:微调篇之微调框架(二)

**摘要**:围绕大模型技术相关问题展开,涵盖DeepSpeed、vllm、llama - factory、unsloth等工具。阐述DeepSpeed混合精度训练配置参数、通过`--offload`参数卸载优化器状态,以及ZeRO三阶段优化策略。探讨vllm采样参数对文本多样性控制、模型并行实现及与DeepSpeed差异。说明llama - factory处理多轮对话数据格式、设计自定义训练回调。分析unsloth流式与批量输出优缺点,以及利用KV Cache优化多轮对话推理速度等

2025-03-29 16:22:19 987

原创 OpenAI Agent SDK 快速接入MCP

作为全球领先的 AI 研究机构,OpenAI 此次通过 Agent SDK 的升级,将 MCP 协议打造为连接智能体与外部工具的标准化桥梁。这一协议通过构建分层架构,实现了模型逻辑、运行环境与工具调用的解耦,为开发者提供了前所未有的自由度。使用Openai agent sdk mcp快速接入mcp server实现工具调用。

2025-03-28 10:38:03 526

原创 大模型MCP 教程:从原理到实战的全攻略

MCP(Model Context Protocol) 由 Anthropic 于 2024 年底开源,其目标是为大模型与外部工具 / 数据源之间建立起一座标准化的桥梁,解决兼容性和互操作性问题。从本质上讲,MCP 就像是 AI 领域的 “USB-C 接口”,它定义了一套统一的通信标准,使得大模型能够通过标准化接口连接任意工具,而无需为每个工具单独开发适配代码。​。

2025-03-27 20:34:09 1461

原创 Openai Agent SDK 快速入门

最近,OpenAI 正式发布了 Agent 开发三剑客 —— 内置工具集、Responses API 和开源 Agents SDK,标志着 AI 智能体开发进入标准化阶段。本文将基于官方文档和最新技术动态,系统讲解如何利用这些工具快速构建具备自主决策能力的 AI 智能体。

2025-03-27 17:04:09 1017

原创 大模型最新面试题系列:微调篇之微调框架(一)

克隆仓库创建虚拟环境安装依赖pip install modelscope -U # 国内用户推荐命令行训练(示例)YAML配置文件(以为例)### model### methodstage: sft### train。

2025-03-15 19:39:34 1012

原创 大模型最新面试题系列:微调篇之微调基础知识

本文是大模型面试系列中微调篇的基础知识部分,重点介绍大模型微调技术中的一些常用算法,数据标注方法,微调参数设置等内容,旨在帮助读者快速掌握大模型微调的技术技术。

2025-03-15 16:23:50 1033

原创 手把手教你部署QWQ模型,开启高效推理之旅

在大语言模型蓬勃发展的当下,掌握模型的本地部署与调用技术,对于开发者深入探索模型性能、实现个性化应用至关重要。本文将以QWQ-32B模型为例,详细阐述其部署与调用的全流程,为大家提供一份全面且具有实操性的技术指南。

2025-03-12 11:06:24 1221

原创 MoE 架构演进之路:从 Switch Transformer 到 DeepSeek-R1 的工程实践

本文深入剖析了MoE(混合专家系统)架构,其由专家网络、门控网络和选择器构成,具备动态路由、条件计算和可扩展性优势。文章介绍了该架构在工程上的突破,如Switch Transformer的单专家路由、负载均衡损失和专家并行,DeepSeek - R1的动态容量调整、层级路由和通信优化。同时阐述了负载均衡优化和通信优化等关键技术,给出不同场景下架构选择和调参建议,并展望了其自适应专家创建等未来演进方向。

2025-03-07 18:06:25 1560

原创 大模型最新面试题系列:训练篇之训练优化算法

本文主要介绍了大模型训练过程中的一些训练优化技巧

2025-03-07 09:27:35 981

原创 大模型最新面试题系列:训练篇之模型监控与调试

本文主要梳理大模型训练过程中的监控以及调试知识点。

2025-03-06 17:28:15 1072

原创 大模型最新面试题系列:训练篇之训练稳定性

【代码】大模型最新面试题系列:训练篇之训练稳定性。

2025-03-06 07:50:52 596

原创 大模型最新面试题系列:训练篇之训练策略

本文主要是针对大模型训练过程中的一些训练策略作讲解。

2025-03-04 17:36:16 434

原创 大模型最新面试题系列:训练篇之分布式训练

模型并行显存最优,但通信开销最大;数据并行显存压力大但通信简单;流水线并行适合长模型,需平衡气泡与显存。

2025-02-28 18:52:47 755

原创 大模型最新面试题系列:训练篇之数据处理与增强

【代码】大模型最新面试题系列:训练篇之数据处理与增强。

2025-02-27 20:48:03 865

原创 大模型最新面试题系列:训练篇之预训练

11.xx1​x2​⋯xn​]ix′xi​xi​xi​L−∑i∈M​logPxi​∣x∖i′​)Mx∖i′​ixx1​x2​⋯xn​]xi1​xi1​xi1​L−∑i1n−1​logPxi1​∣x1​⋯xi​。

2025-02-27 18:33:28 486

原创 大模型最新面试题系列:深度学习基础(一)

假设原始的损失函数为LθL(\theta)Lθ,其中θ\thetaθ是模型的参数(权重矩阵)。L1正则化:在原始损失函数的基础上加上L1范数正则化项,得到新的损失函数LL1θLθλ∥θ∥1LL1​θLθλ∥θ∥1​,其中λ\lambdaλ是正则化系数,∥θ∥1∑i∣θi∣∥θ∥1​∑i​∣θi​∣是参数的L1范数。L2正则化:在原始损失函数的基础上加上L2范数正则化项,得到新的损失函数LL2θ。

2025-02-26 07:48:17 782

原创 大模型最新面试题系列:深度学习基础(二)

对于一个多分类问题,假设有CCC个类别,样本xxx的真实标签为yyy(用one - hot编码表示),模型的预测概率分布为y\hat{y}y​,其中yi\hat{y}_iy​i​表示样本xxx属于第iii类的预测概率。L−∑i1Cyilog⁡yiL−∑i1C​yi​logy​i​对于一个回归问题,假设样本 (x) 的真实值为 (y),模型的预测值为y\hat{y}y​LMSE1n∑i1n。

2025-02-26 07:44:35 767

原创 strawberry 里有多少个 r,哪个大模型回答正确?

不得不说,Deepseek 是真厉害👍。

2025-02-25 08:44:45 269

原创 AutoGen 技术博客系列 九:从 v0.2 到 v0.4 的迁移指南

这是一份为 `autogen-agentchat` `v0.2.*` 版本用户提供的迁移指南,旨在帮助用户升级到 `v0.4` 版本,该版本引入了一组新的 API 和功能。`v0.4` 版本包含重大变更,请仔细阅读本指南。我们仍在 `0.2` 分支中维护 `v0.2` 版本,但强烈建议您升级到 `v0.4` 版本。

2025-02-22 21:08:28 1054

原创 AutoGen 技术博客系列 八:深入剖析 Swarm—— 智能体协作的新范式

在人工智能的浩瀚星空中,AutoGen 的 Swarm 模式犹如一颗耀眼的新星,正引领着智能体协作的新潮流。今天,就让我们一同深入探究这一强大模式的奥秘。

2025-02-22 21:01:14 784

原创 大模型高效注意力机制全解析:FlashAttention 与稀疏注意力实战

自定义注意力测试代码的目的是通过对比标准注意力和 FlashAttention 的计算时间和输出差异,直观地展示 FlashAttention 的加速效果和准确性。下面详细解释测试代码的实现逻辑和典型输出的含义,以及如何通过测试对比不同注意力机制的性能。# 生成测试数据n = 4096 # 序列长度d = 128 # 特征维度# 标准计算# FlashAttention计算print(f"标准耗时: {std_time:.3f}s")

2025-02-20 20:11:58 1434

原创 AutoGen 技术博客系列 (七):状态管理与组件序列化解析

在 AutoGen 的复杂技术架构中,状态管理与组件序列化宛如两大基石,对整个系统的稳定运行、高效协作以及功能扩展起着举足轻重的作用。接下来,就让我们深入探究其内部机制,通过详实的代码示例、深度的原理分析以及源码解读,全面理解它们的奥秘。

2025-02-20 09:25:02 870

原创 AutoGen 技术博客系列 (六):SelectorGroupChat 的原理与实践

SelectorGroupChat 是 AutoGen 中 AgentChat 应用接口里一种预设的 Team 类型,在多智能体协作完成复杂任务的场景中扮演着关键角色。它的核心特点是参与者(Agent)以推荐选择的方式轮流向所有参与者发布信息,每次消息发布后,都会使用 ChatCompletionClient(LLM)选择下一个发言者(Agent)。这一机制使得智能体之间的协作更加智能和灵活,能够根据任务的进展和当前的对话上下文动态地确定下一个执行任务的智能体。

2025-02-18 22:00:54 987

原创 DeepSeek R1 GRPO 强化训练:原理与 Qwen 模型基于GRPO强化训练实战

在大语言模型(LLMs)的发展历程中,训练算法的创新始终是推动模型性能提升的关键因素。GRPO(Group Relative Policy Optimization,群体相对策略优化)算法的出现,为大规模语言模型的训练带来了新的思路和突破。本文将深入剖析 GRPO 算法的原理、实现细节,对比其与传统算法的差异,并通过实际案例展示如何运用 GRPO 强化训练 Qwen-7B 模型,使其具备强大的推理逻辑。

2025-02-18 12:14:40 1115

原创 AutoGen 技术博客系列 (五):智能体团队协作的深度剖析与实践

在人工智能的蓬勃发展浪潮中,AutoGen 作为一款强大的工具,正逐渐崭露头角,为复杂任务的处理提供了创新的解决方案。本文将深入探讨 AutoGen 中的智能体团队协作机制,包括团队创建、运行控制、反馈机制以及终止条件等核心方面,并结合实际代码示例与执行结果进行详细分析。

2025-02-17 09:19:43 639

原创 AutoGen 技术博客系列 (四):自定义智能体的高级技巧

本文将深入探讨如何利用 AutoGen 的高级特性,创建更加灵活、强大的自定义智能体,并通过实战案例进行详细讲解。

2025-02-16 16:25:26 925

原创 AutoGen 技术博客系列 (三):内置智能体的应用与实战

在 AutoGen 的世界里,智能体(Agent)构成了构建多智能体应用的基石。AutoGen 0.4 版本带来了一系列预设智能体,这些智能体封装了常用的功能与行为模式,极大地简化了复杂应用的构建过程。本文将深入剖析这些预设智能体,通过实际代码示例展示其应用场景与使用方法,并对 AutoGen 的内部机制进行深度分析。

2025-02-15 19:15:28 1206

原创 AutoGen 技术博客系列 (二):深入自定义智能体

虽然 AutoGen 提供了如 AssistantAgent 和 UserProxyAgent 等多种预设智能体,但这些预设智能体可能无法完全满足所有应用场景的需求。在以下情况下,可能需要创建自定义智能体:•特定的行为模式: 当你需要智能体具有特定的交互逻辑、决策流程或行为模式时。•特殊的工具集成: 当你需要智能体使用特定的工具或服务时,这些工具在预设智能体中没有提供。•独特的系统消息: 当你需要智能体具有独特的个性和角色,需要通过自定义系统消息来控制其行为时。

2025-02-15 07:26:39 1030

原创 AutoGen 技术博客系列 (一):基础介绍与入门教程

AutoGen 是一个微软提供的强大的多智能体应用开发框架,它允许开发者构建可协作、可交互的智能体系统,解决各种复杂任务。AutoGen 基于异步、事件驱动架构,旨在提高系统的可观察性、灵活性、交互控制和可扩展性。

2025-02-14 17:49:55 920

原创 DeepSeek为何能低算力实现高性能模型?

在人工智能领域,在有限算力条件下实现高性能模型一直是研究热点。Deepseek 通过一系列创新技术,成功打造出低算力成本高性能的模型,为该领域带来新的突破,下面将详细介绍其实现方式。

2025-02-14 08:07:37 655

原创 从13B到1.3B:Deepseek-R1工业级蒸馏实战,5倍推理加速完整指南

文章围绕Deepseek-R1工业级蒸馏实战展开,介绍知识蒸馏破解工业级NLP应用中大模型推理成本高、小模型性能损失严重的困境,包括环境准备与数据配置、教师与学生模型的部署设计、蒸馏训练流程、温度调节策略、部署与验证、调优指南等内容,涵盖模型架构、损失函数、训练循环、部署方式及优化技巧等方面。

2025-02-13 09:21:08 1465 4

原创 大模型蒸馏:如何让小模型“继承”大模型的智慧

大模型蒸馏,简单来说,就是将大型复杂模型(教师模型)的知识迁移到小型轻量模型(学生模型)的过程。就像一位知识渊博的老师把自己的知识精华传授给学生,让学生能够用更简洁的方式掌握关键能力。这一技术的核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求,使其更适合在资源受限的环境中部署,如手机、物联网设备等。# 定义教师模型teacher.fc = nn.Linear(teacher.fc.in_features, 10) # 调整输出层以适应CIFAR-10的10个类别# 定义学生模型。

2025-02-13 08:05:59 1304

原创 一步到位!7大模型部署框架深度测评:从理论到DeepSeek R1:7B落地实战

文章主要介绍了主流模型部署框架(Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed)的技术原理、优缺点、适用场景,并以DeepSeek R1:7B为例进行全框架部署实战,包括详细步骤和关键参数说明,最后给出不同场景下的选型建议。

2025-02-12 09:34:01 2431

原创 Java SPI 模块化实现原理

基于Java SPI机制的模块化实现,实现框架解耦

2023-07-16 11:54:51 176 1

原创 Apache Configuration使用

Apache Configuration工具类读取配置的用法

2023-07-16 11:16:28 357 1

原创 hive 操作iceberg

Hive 操作 iceberg 入门示例

2022-11-24 10:32:49 1448 1

原创 SQL OVER 开窗实例-基于StarRocks

基于SQL Over开窗实现复杂的查询

2022-11-22 10:36:23 1158 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除