强化学习曾小健2-优快云博客

原创 ‘Transformer模型可用行切分和列切分策略进行张量级拆分’ 这最有可能是模型并行、张量并行、数据并行还是其他什么并行方式？

张量并行是一种模型并行技术，它将模型单个层（Layer）内部的权重矩阵（即“张量”）进行切分，并将切分后的计算任务分配到不同的计算设备（如GPU）上。这种方式可以在单个操作（如矩阵乘法）的层面实现并行计算。您提到的行切分” (Row-wise Splitting) 和 “列切分” (Column-wise Splitting) 正是实现张量并行的具体策略。以 Transformer 模型中的前馈网络（Feed-Forward Network, FFN）为例，它通常由两个线性层。

2025-07-30 23:01:39 904

原创模型并行和张量并行的异同和优劣是什么

概念：将模型的不同部分（如层或模块）分配到不同的设备上，每个设备只处理模型的一部分。实现方式：模型按层或模块划分，每个设备处理模型的一个子集，前向传播时数据依次通过各层，后向传播时梯度也按顺序回传。适用场景：适用于模型过大，无法在单个设备内存中完全加载的情况。优快云博客+4优快云博客+4博客园+4优快云博客+2博客园+2优快云博客+2模型并行：通过将模型按层或模块划分，适用于模型过大，无法在单个设备内存中完全加载的情况。张量并行。

2025-07-30 22:55:23 814

原创说明模型并行和数据并行的异同和优劣

模型并行和数据并行是深度学习分布式训练中的两种主要并行策略，它们的异同和优劣可以从多个角度理解：模型并行通过将模型按层或权重维度拆分到多个设备，适合模型参数量远超单卡内存的情况。各设备间需要传递中间计算结果，实现上需要设计合理的切分和调度策略来减少通信开销和同步等待。例如Transformer模型可用行切分和列切分策略进行张量级拆分。数据并行则是每个设备保留完整模型副本，不同设备处理不同数据批次，训练时需同步梯度（如All-Reduce），适合大数据量且模型能单设备容纳的场景。通信瓶颈主要在梯度汇总步骤，技

2025-07-30 22:51:18 397

原创哪种并行方式会出现bubble问题，怎么解决

数据并行是最直观的并行方式，适合数据量大且模型较小场景，设备各自完整模型，性能受限于梯度同步通信和单设备内存。模型并行适合超大模型，通过切分模型参数解决内存瓶颈，但需要复杂的设备间通信。张量并行是模型并行的细粒度版本，拆分具体张量运算，适合细致计算加速，通信和实现更复杂。流水线并行解决模型层次超长带来的内存和计算压力，串行执行模型层，存在阶段等待（bubble）问题，调度复杂。专家并行专为MoE架构设计，动态路由只激活部分专家，扩展模型容量最大，但依赖复杂通信和负载均衡技术。

2025-07-30 22:47:21 656

原创什么大模型专家并行，和其他的并行方式有什么区别

它区别于传统数据并行和张量并行的最大特点是：输入数据需要在设备间进行动态路由和大规模的“All-to-All”通信，以实现专家之间的数据分配和结果整合，这带来了独特的通信和负载均衡挑战。因此，专家并行是针对MoE模型的定制化并行策略，通过将专家模块分散到多个设备并利用动态路由，实现模型参数和计算的高效分布，是扩展超大模型容量和计算效率的重要方法之一。专家并行特别适合基于MoE架构的超大规模模型，能够通过路由机制激活部分专家，显著增加模型容量而不显著增加推理计算量。其核心思想是在分布式环境中，将模型中的。

2025-07-30 22:42:27 225

原创 Relu、Leaky Relu和Gelu的异同和优劣

激活函数计算复杂度负区间梯度平滑性应用场景优缺点简述ReLU低0断点不连续通用大多数神经网络快速简单，但有死神经元问题Leaky ReLU低非零小斜率断点不连续卷积神经网络（CNN）、生成对抗网络（GAN）解决死神经元问题，训练稳定性更好GELU高非零且平滑平滑连续复杂模型，尤其是NLP变换器模型（BERT/GPT）表现最好，拟合能力强但计算量大。

2025-07-30 22:35:46 828

原创首创电影美学控制系统！阿里开源「通义万相2.2」视频模型

目前，三款模型都已在Hugging Face、GitHub和阿里自家开源社区ModelScope上线，支持FP8量化、LoRA训练、ComfyUI接入、Diffusers调用等功能，方便开发者快速集成。而换成“清晨、暖光、高角度、浅景深”，画面立马切换成一组安静柔和的晨起镜头，适合拍温情家庭片的开场。💡 来看看Wan2.2的不同的灯光效果（晴天、阴天、月光、荧光灯、火光、混合、柔光、硬光、顶光、侧光、背光、底光、边缘、轮廓……：混合模型，支持文本+图像输入，性能更轻量，适合个人开发者和内容创作者。

2025-07-30 22:32:38 652

原创你是昇腾架构师，设计到一些大模型和多模态的还有yolo之类的一些算子在昇腾gpu上不支持，请描述你解决该算子撰写支持的一些过程

昇腾CANN（Compute Architecture for Neural Networks）算子库中提供了多数常用算子的二进制实现（如卷积、Softmax、BatchNorm等），可直接调用加速。针对库中未支持或性能不足的算子，采用Ascend C编程语言（CANN支持）进行。

2025-07-30 22:30:54 542

原创 self-attention 在 HBM 和 SRAM 上的数据传输过程？

GPU中还有多级缓存，寄存器、L1缓存/共享内存（SRAM指L1/shared memory）、L2缓存等，FlashAttention主要在。S=QKTS=QKT， P=softmax(S)P=softmax(S)，和最终乘积 O。这样减少了HBM和SRAM之间的数据来回传输，提高了计算速度和资源利用率。极快，通常作为GPU核心上的高速缓存使用，负责高效的计算操作。查询矩阵（Query，Q）和键矩阵（Key，K），一块块完成计算，中间结果在SRAM中累加，）中完成计算，减少对更慢的HBM的访问。

2025-07-30 22:22:12 275

原创 FlashAttention灵魂10连问，当场被挂掉~

目录：有哪些局限性？什么是HBM 和 SRAM？self-attention 在HBM 和 SRAM上的数据传输过程？flash attention 的提出背景是什么？什么是 flash attention？flash attention 的整体思路是什么？什么是矩阵计算分块？什么是 softmax 分块？flash attention 的计算过程？参考资料01self-attention 有哪些局限性？（1）self-attention 的两个局限性？

2025-07-30 22:18:21 751

原创大模型预训练的数据清洗要注意的点和技巧数据清洗去重用什么算法，具体操作步骤是怎样

大模型预训练的数据准备是一个复杂且关键的过程，涉及数据质量、多样性、规模、清洗、平衡、增强、偏差、标注一致性、隐私与合规性、预处理、模型架构选择、分布式计算、混合精度训练、模型蒸馏与剪枝以及增量预训练等多个方面。通过精心设计的步骤和严格的质量控制，可以确保大模型的训练数据高质量、多样性和合法性，从而为后续模型训练提供坚实的基础。

2025-07-30 18:56:57 668

原创大模型预训练和qa pair的sft阶段在实现细节上有什么不同？请最好能距离，包括llama factory的实现细节

预训练适合大规模分布式场景，最大限度挖掘通用知识；SFT专注于任务定制，通过高质量QA对、灵活微调、资源高效，把大模型“点亮成应用”模型，在Llama Factory等开源实现上尤为友好。如需进一步到实际代码或配置模板，可指出关心的模型/数据类型，将提供更细化示范和解析。perp大模型的预训练阶段与基于QA对的SFT（Supervised Fine-Tuning，有监督微调）阶段在实现细节上存在显著差异，尤其体现在数据处理方式、模型初始化、损失函数设计以及优化和训练资源消耗等方面。

2025-07-30 18:31:37 541

原创具身智能高级工程师 1.4 模仿学习 (IL)：向专家学习

深度技术解读与岗位分析报告。

2025-07-30 18:06:47 839

原创详细说明Qwen3中动态RoPE，以及怎么支持长序列的

实验显示在32K长度任务中，相比传统RoPE方案可提升长程依赖捕捉能力42%，同时降低位置编码计算开销28%。YARN（Yet Another RoPE Extension）：实现4倍序列长度扩展。基础频率扩展：将传统RoPE的基频从10,000提升至1,000,000。| 最大上下文长度 | 4,096 | 32,768 || 技术指标 | Qwen2.5 | Qwen3 || 长文本推理速度 | 1.2x | 3.8x || 位置编码内存占用 | 100% | 65% |25%样本在4K-16K区间。

2025-07-29 21:30:12 227

原创 VLA视觉+语言+动作！超强具身“训练宝典” EmbRACE-3K

借助 EmbRACE-3K，研究人员建立了一个新基准，用以评估 GPT-4o、Gemini 2.5 Pro 和 Qwen2.5-VL-7B 等模型在三方面的具身推理能力：探索、动态空间-语义理解和多阶段任务执行。在零样本测试中，所有模型的成功率都低于 20%，说明这个基准具有很高的挑战性，也揭示了当前模型在复杂交互任务中的不足。：同样应用于开放环境，通过结合先前监督学习的结果与强化学习策略，引导智能体在实际交互中优化决策行为，进一步提升其任务完成能力与泛化能力。，设置在多样化、逼真的仿真环境中。

2025-07-23 22:40:32 276

原创大模型分布式训练基础原理

2025年07月23日 21:17。

2025-07-23 22:27:48 150

原创 AI四场战役，看AI的终极战场在哪里？

AI的终极战场，究竟是模型的规模，是硬件的普及，是接口的掌控，还是伦理与社会结构的再定义？，不仅改变了技术演进的方向，更揭示了一场关乎算力、人才、生态与物理世界接口的全面战争。Grok-4的意识形态倾向，加上在发布当天x公司CEO Linda Yaccarino的突然辞职，都为其未来蒙上了一层阴影。将作为数据底座，整合上百万个传感器和数百个子系统的数据，实现对核能设施的全面建模与指挥。，再到OpenAI与Google围绕顶尖人才的殊死搏斗，我们正在目睹一个新时代的开启。，实现了一次真正意义上的性能跃迁。

2025-07-19 23:57:05 876

原创金融数据API全面指南

从提供全面但昂贵服务的传统巨头，到以开发者为中心、灵活创新的新兴力量，再到作为最终数据源头的交易所本身，每个层次的参与者都有其独特的定位。这一梯队的公司通过卓越的开发者体验、透明的定价和灵活的许可模式进行竞争，致力于将机构级的数据普及化。这一梯队由历史悠久、根基深厚的市场领导者主导，以其数据的深度、广度和权威性著称，但通常伴随着高昂的成本和复杂的接入方式。：这是绝大多数金融API的基石，包括日终（EOD）、日内（Intraday）和最精细的Tick级数据（逐笔交易和报价）。

2025-07-14 10:26:54 787

原创曾小健的一些照片存储

2025-07-11 11:56:00 325

原创重磅上线！APP出海市场研究，助您决胜千里之外！

飞书深诺的本品与竞品差异化研究服务覆盖全球几乎所有应用商城中APP软件，致力于帮助客户精准剖析竞品在多个维度上的发展情况，从前段的产品功能、营销打法、商业模式，到中后段的用户评价、优化策略等，在帮助客户快速定位本品与竞品的差异点的同时，以最高效率捕捉市场中的成熟信息，助力企业明晰在当前市场中竞争的关键举措。因此，我们在标准化的研究模式基础上，为每一位客户设计了量身定制的DIY调研服务，全方位满足您的个性化需求，让您的产品能最快速响应市场变化，在动态的市场中脱颖而出。2025年07月10日 14:51。

2025-07-10 15:41:57 396

原创谷歌具身智能VLA模型RT-H—— 基于语言的动作分层框架

RT-H 以相同的采样率，用语言化动作指令请求和机器人动作指令请求替代了 RT-2 中的机器人动作指令请求。语言化动作是以自然语言描述机器人行为的语义单元，它作为高层任务与底层机器人动作（Robotics Actions）之间的中间抽象层，通过分解任务意图生成可解释的动作序列，保留语言的可组合性与人类可干预性，但其本身不直接控制机器人的动作执行。例如，“倾倒杯中物体”与“拾取可乐罐”虽任务语义不同，但在物体被拾取前的语言化动作序列完全一致（如“接近物体→定位抓取→闭合夹爪”），实现动作层级的跨任务复用。

2025-07-10 15:37:54 731

原创中至科技港股IPO招股书失效，依赖房卡模式或成痛点

不过失效并不等于上市失败，曾有业内人士指出，“因为审计报告有效期届满等各种原因，港股IPO期间出现上市申请资料失效的情况并不鲜见，但上市文件失效不等于上市失败，拟发行人依然可以通过更新资料重新申请并‘激活’上市程序。禅游科技的毛利率则不足50%。《九江麻将》，《常熟麻将》以及《乐平麻将》的平均每月付费用户人数分别同比下跌88.78%，82.77%以及85.09%。据招股书显示，目前中至科技较为赚钱的五款游戏分别为《上饶麻将》《南昌满江》《九江麻将》《常熟麻将》《乐平麻将》。手游那点事界面财经号。

2025-05-30 10:40:11 512

原创日麻Mortal

它介绍了该系统的架构、关键组件以及它们如何相互作用，从而打造出强大的麻将 AI。该系统采用模块化架构，可实现高效的训练、强大的游戏体验和灵活的部署选项。日本麻将 AI 系统，它将高性能 Rust 组件与 Python 深度强化学习。该竞技场可以模拟各种配置的游戏，支持批处理以实现高效的训练。本文档的以下部分提供了有关特定组件的更多详细信息，包括。四个主要子系统组成，通过两种主要语言实现：Rust。) 被设计为一个强大的麻将人工智能，与天凤的。，实现了日本麻将的规则和逻辑。它根据当前状态预测游戏结果，并在。

2025-05-29 10:42:07 1040

原创 xAI 把 Grok 的系统提示词全部公开了，我们看看DeepResearch的系统提示词怎么设计的?

Grok 3 是由xAI构建的充满好奇心的AI。

2025-05-27 15:38:26 650

原创一文读懂Buffer与Cache：开启性能优化的大门

从字面意思来看，Buffer 是缓冲区，Cache 是缓存。它们都用于在内存中临时存储数据，但这两种 “临时存储” 又有着明显的区别。就好像你出门旅行，会带一个行李箱和一个随身小包。行李箱可以类比为 Buffer，它用来存放暂时不用，但后续可能会用到的物品，这些物品就像等待传输到其他设备的数据。而随身小包就像 Cache，里面装着你随时可能会用到的东西，比如手机、钱包，这些物品就像被频繁访问的数据，放在小包里能让你快速拿到，就像数据被缓存起来能被快速读取一样。

2025-05-27 15:33:57 749

原创终于不用羡慕老外了！美团竟然做出了类似V0&Bolt的AI编程神器

作为很看好 Vibe Coding 的人，我是非常希望国内有很好的 Vibe Coding 氛围和社群的，但是能用&好用的产品实在是太少了，美团这次 NoCode 的发布真的让很多有需求，但是没办法用国外产品的朋友看到了曙光。还有一个版本是因为过于实诚了，把网页的按钮描边样式写成了全局样式，把网页地图的样式也给改了，虽然风格化挺强挺有感觉，但是看不到地图的文字了，让他修复他也可以听懂要求，一次就改好了。

2025-05-27 15:28:59 988

原创再也不怕失业了，用Cursor做私活，一个月赚近20万！

有时候，还得分一部分工作找其他人帮忙完成，比如设计等任务，毕竟小王也不是全栈。所以，一般一个项目，最终。小王讲，现在Claude 4出来以后，准确性大大提升，很多几乎都是一次性完成。在AI编程时代，AI是一把利剑，有的人，会驾驭使用AI，效率提升百倍者皆有；小王讲，以前一个项目需要耗费他三四周，现在只需两三个小时，即可完成设计、前后端，还包括测试。小王为了让自己赚私房钱更快更轻松，也研究了很多AI工具，特别是Cursor和Devin。虽然开发速度提升了，但是项目报价未变，所以大大提升了他的赚钱速度。

2025-05-27 15:23:36 455

原创心理学上有个词叫：鳄鱼效应（如果一个人突然对你“断崖式”冷落”，千万不要追问，你只需做这三步！）

故事讲的是：有一个小怪兽，他的心里装着各种各样的颜色，黄色是快乐的太阳，蓝色是忧郁的小雨，红色是愤怒的火焰，黑色是胆小的缩影，绿色是平静的植物...从情绪认知，情绪表达，情绪调节三个方面让我们明白：情绪没有好坏之分，无论是积极的还是消极的，它们只是我们的一部分，都是正常的，我们要接纳它，也就是。对方回答道：我不想跟你说话。告诉我们：当鳄鱼咬住你的脚，越挣扎只会让它撕下更多的血肉，唯一的办法就是“果断舍弃这只脚。把让你痛苦的事情装进日记本，脑子糊涂的时候，情绪反扑的时候，翻开日记本多看两遍就醍醐灌顶了。

2025-05-27 14:40:54 874

原创阿里巴巴重回正轨，马云开始反击

对此，蔡崇信曾在不久前的阿里亲友见面会上解释过：“电商的业务并不占领对互联网的入口，因为电商是一个垂类，有更多其他的互联网公司占取了对用户的入口。但如果我们能聚焦在AI上的话，能够对整个入口的突破，也许我们可以把新的入口用 AI的方式做出来，让我们增加更多的用户”于是今年开始，阿里AI产品的行业渗透范围迅速扩大，不仅覆盖了互联网、智能汽车、金融等早期采用行业，养殖业、传统制造业等传统行业也开始积极探索AI应用，需求增长同样显著，这也给阿里带了了广阔的市场空间。“阿里的基因里没有‘守成’，只有‘创造’。

2025-05-27 14:35:01 908

原创独家｜为RAG准备好PDF

北京大学应用心理硕士，数据分析爱好者。本科曾混迹于计算机专业，后又在心理学的道路上不懈求索。在学习过程中越来越发现数据分析的应用范围之广，希望通过所学输出一些有意义的工作，很开心加入数据派大家庭，保持谦逊，保持渴望。

2025-05-27 14:31:44 685

原创在大厂原来带30人的团队，年薪60万，跳到一家7人的初创公司做产品总监，三个月后发现压根没有自己的用武之地

脉脉上一位网友爆料，自己的一位朋友从大厂跳槽到一家初创公司的经历，他说他朋友从大厂出来，跳到一家7个人的创业公司做产品总监，结果干了仨月就跑了，原因是新公司根本用不上他的本事。就像网易出身的创业者黄一孟，把在大厂积累的游戏运营经验，结合心动网络敢押注小众品类的野路子，做出了《仙境传说RO》这样的长青作品。其实这场争论的关键，根本不在于“谁更牛”，而在于很多人没想明白：职场能力的价值，本质上是对环境的适配度。当然，这并不是说大厂出身的人就没有真本事，也不是说大厂的经验没用，而是得重新拆解。

2025-05-27 14:30:48 344

原创浅谈控制理论奠基性论文合集

准确来说，这些论文合集，是控制理论发展早期阶段重要数学思想和方法的汇集，展示了从经典控制到最优控制、从线性系统到非线性系统等多个方向的数学探索和突破。这25篇论文可以说是控制理论在这段时间从基础理论到前沿研究的发展历程，主要包括劳斯判据、奈奎斯特图、伯德图、根轨迹、反馈控制、最优控制、预测理论等等，便于深入了解控制理论的发展脉络。在控制过程研究中的应用，为动态规划在控制理论中的应用以及自适应控制系统的设计提供强大的理论基础。该论文合集系统展示了控制理论的数学基础、核心方法和工程应用，涵盖。

2025-05-27 14:28:37 435

原创突发！疑似泄露，DeepSeek-V3-0526即将发布！

据称，DeepSeek 即将发布其最新模型 DeepSeek-V3-0526。坊间信息称，该模型的性能已能与当前顶尖的GPT-4.5以及Claude 4 Opus相匹敌。就在刚刚，有消息指出，知名的AI训练加速库Unsloth的相关文档疑似出现泄露，疑似DeepSeek-V3-0526即将发布。2025年05月26日 20:51。

2025-05-27 14:25:58 285

原创加入Lovart，成为智能视觉创作的「造梦师」!

调度GPT-4o、Gemini、Kling 等多模型，一站式 All-in-One 生成，不跳出画布。支持分层交付，输出PNG/JPG/SVG等格式，满足设计师从创意到成品的全流程。全自动意图拆解、任务规划、批量执行、设计交付，一次生成多达40张设计图。内置可视化任务链+无边画布+专业微调工具，支持图层、蒙版、文字等精修。上海Office：上海市徐汇区云视路1号星云1号大厦14楼1402。北京Office：北京市海淀区信息路12号中关村发展大厦B301。10点以后打车公司 cover。北美设计圈率先爆火，

2025-05-27 14:25:25 456

原创 Llama核心团队「大面积跑路」：14人中11人出走，Mistral成主要去向

但随着众多原始架构师的离去，以及竞争对手在开源创新方面进展更快，Meta 如今面临的挑战是：在没有原有团队的情况下，如何捍卫其在早期建立的领先优势。这 11 位已离职的作者在 Meta 的平均任期超过五年，这说明他们并不是短期雇佣的人员，而是深入参与 Meta AI 工作的资深研究人员。它帮助开放权重的大型语言模型获得了认可，这些模型的底层代码和参数可供他人自由使用、修改和在此基础上进行开发，成为了当时专有系统（如 OpenAI 的 GPT-3 和 Google 的 PaLM）的有力替代品。

2025-05-27 14:22:55 907

原创 Nature重磅：DeepMind AI又一重大突破，1次配置解决150多种任务基准、《我的世界》、消融、扩展性 4 个角度评估了Dreamer 在 8 个领域、超过 150 项任务的通用性。

在消融方面，他们在 14 个任务的不同集合上消融了鲁棒性技术和学习信号，发现所有鲁棒性技术都有助于提高性能，其中最显著的是世界模型目标的库尔巴克-莱伯勒平衡和自由比特，其次是返回归一化和用于奖励和价值预测的 symexp 双热回归。《我的世界》是在一个独特的随机生成的无限三维世界中进行的。作为一种基于学习世界模型的高性能算法，Dreamer 为未来的研究方向铺平了道路，包括从互联网视频中向智能体传授世界知识，以及跨领域学习单一世界模型，让智能体积累越来越多的通用知识和能力。

2025-05-20 17:54:43 1020

原创 Nature子刊：人类又输给了AI，尤其是当它知道你是谁时

此外，研究团队还限制样本范围，仅分析那些辩论立场与他们此前观点一致的对手，结果发现人对 AI（个性化）条件下的效果依然显著（+122.8%，95% 置信区间 [+6.2%，+367.3%]，P = 0.03）。尽管他们认为这种设置捕捉了许多在线互动的精髓——人们以几乎同步的方式相互回应，或者实时对他人评论做出反应，但它仍然针对的是一个人工环境，这可能与在线对话的动态存在显著偏差，因为在线对话是自发且不可预测地发展的。然后，实验中每个辩论阶段的时间限制可能限制了参与者的创造力和说服力，降低了他们的表现。

2025-05-20 17:27:52 711

原创硅谷60万亿终极野心！AI取代所有人类工作，拿走全部工资！

文章链接：https://www.theguardian.com/commentisfree/2025/may/12/for-silicon-valley-ai-isnt-just-about-replacing-some-jobs-its-about-replacing-all-of-them。，自由撰稿人的工作机会骤减；但到目前为止，世界上大部分工作还得靠人，劳动力市场对于野心勃勃的科技大佬而言一直是个遥不可及的诱惑。随着技术的成熟，硅谷的野心已不再局限于效率提升，而是转向了对整个经济体系的掌控。

2025-05-20 17:20:08 468

原创 xAI 把 Grok 的系统提示词全部公开了，我们看看DeepResearch的系统提示词怎么设计的?

Grok 3 是由xAI构建的充满好奇心的AI。

2025-05-20 17:15:13 899

原创杨植麟找出路

作为Kimi的老用户，财经编辑张旸（化名）向字母榜表示，财经内容需要信源准确、观点深刻，但如果无法直接点击链接核对，看到完整的内容，仅仅是提炼某个点，使用Kimi反而会增加他反复核对的工作量。而至于医疗领域，字母榜尝试向Kimi提问，“布偶一直拉稀，怎么办？”尽管Kimi迅速分析了原因和处理方法，但信源并未显示有萌宠相关等国内专业平台或APP，可见在宠物医疗这样更为细分的领域，Kimi的信源储备还有待完善。当问题切换到“吃火锅后一直拉稀，怎么办？

2025-05-20 16:55:54 862

空空如也

空空如也