摩尔线程blog中心

摩尔线程成立于 2020 年 10 月,以全功能 GPU 为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的 AI 计算支持。 我们的目标是成为具备国际竞争力的 GPU 领军企业,为融合人工智能和数字孪生的数智世

  • 博客(30)
  • 收藏
  • 关注

原创 技术研究 | 解码GPT-4o用文字泼墨成图的算力密码

语言是画笔,GPU是画布与调色板,没有画布与调色板,语言这支画笔再精妙也无法将创意具象化,二者共同成就了艺术家的无限可能。GPT-4o 的图像生成功能与 GPU 之间存在的密切关系主要体现在:计算需求、性能优化以及资源利用效率等方面。

2025-04-01 16:48:23 320

原创 SEKI —— 基于大型语言模型的自进化与知识启发式神经架构搜索

本文引入了一种名为SEKI的基于新型大型语言模型的神经架构搜索方法。实验结果表明,SEKI在各种数据集和搜索空间上实现了最先进的( SOTA)性能,在效率和准确性方面都优于现有方法;此外,SEKI展示了强大的泛化能力,具有良好的鲁棒性。

2025-03-03 20:02:16 906

原创 摩尔线程 Round Attention:以轮次块稀疏性开辟多轮对话优化新范式

摩尔线程研究团队率先以轮次为分析单元研究 Attention 规律,提出 Round Attention inference pipeline。端到端延迟低于现在主流的 Flash Attention 推理引擎, kv-cache 显存占用节省 55% 到 82% 。

2025-02-26 13:05:13 457

原创 在摩尔线程 MTT S80 上使用 Ollama 进行 DeepSeek R1 蒸馏版模型推理

本文主要介绍了如何在摩尔线程 MTT S80 上通过 Ollama 快速完成DeepSeek R1 蒸馏系列模型的推理。

2025-02-21 14:24:34 1469 1

原创 MTVerseXR云端异步渲染

本文介绍了MTVerseXR通过云端异步渲染的方式,提升推流帧率和降低显示延时影响,优化用户使用体验

2025-01-02 10:35:30 361 1

原创 MTVerseXR — Asynchronous TimeWarp

TW是一种图像处理技术。它是将前一帧渲染图像进行扭曲,来生成当前帧渲染图像的方法;在VR应用中帧刷新率相对较高,两帧之间的位姿变化很小,所以不会出现大面积像素缺失,利用这项技术可以有效的缓解由于渲染延时造成的跳帧、漏帧现象导致的画面抖动。ATW是指在和渲染线程并行的独立线程中处理TW,在渲染时刻同步TW结果

2025-01-02 10:17:47 404

原创 使用 ChatGPT 协助 MUSA 代码生成和运行

本文将探讨如何使用ChatGPT生成MUSA代码,以及这项技术如何促进程序设计和开发过程的简化。MUSA是摩尔线程设计推出的统一系统架构,兼容CUDA,依托摩尔线程GPU,使用户更简单高效发挥出GPU的算力。

2024-12-26 16:44:03 827 1

原创 Moore Perf System 1.1 版正式发布

Moore Perf System(一款性能分析工具) 提供可视化界面,在时间轴上按时间顺序显示 CPU 和 GPU 的事件、吞吐和性能指标,帮助开发人员方便、快速、准确的定位到系统级别的性能瓶颈,进而进行针对性分析和优化,使程序性能满足需求。

2024-11-30 20:26:24 195

原创 大师开讲-图形学领域顶级专家王锐开讲Vulkan、VSG开源引擎

王锐,毕业于清华大学,图形学领域顶级专家,开源技术社区的贡献者与推广者。著有《OpenSceneGraph 3 Cookbook》,《OpenSceneGraph 3 Beginer's Guide》两本英文专著,并作为美国海军研究生院指定教材。另外编纂和翻译了数十本专著,包括《OpenGL编程指南》(8,9版)和《Vulkan编程指南》。学习完本门课程后,学员将掌握Vulkan编程及性能优化的基础知识,VSG开源引擎进行复杂三维系统编程的基础知识,以及基于摩尔线程国产显卡的开发实践经验。

2024-11-30 18:59:35 1636

原创 手把手教你用摩尔线程 GPU 运行 AI

学习本课程后,您将熟悉linux及docker使用操作,掌握torch_musa适配方法,在摩尔线程GPU上跑通Github代码,掌握如何利用摩尔线程 GPU 运行各类 AI 任务。学习本课程后,学习者将熟悉linux及docker使用操作,掌握torch_musa适配方法,在摩尔线程GPU上跑通Github代码,掌握如何利用摩尔线程 GPU 运行各类 AI 任务。torch_musa开源项目页面:https://github.com/MooreThreads/torch_musa/3、课程前导后续知识。

2024-11-21 15:19:23 1463

原创 基于 MUSA 的大语言模型推理和服务框架vLLM

通过使用musify工具,用户可以快速将原有的CUDA代码无缝迁移到MUSA软件栈,大大提升了用户在MUSA软件栈上开发的效率。musify工具是一个文本替换工具,用于将用户代码中CUDA相关的接口转换为MUSA的对应接口,然后使用MUSA软件栈下的mcc编译器编译成为摩尔线程GPU的可执行文件。另外MUSA的一大优势是CUDA兼容,通过musify工具,我们可以快速将官方代码移植至MUSA软件栈,用户可以根据文档自行升级vLLM版本并适配MUSA软件栈。或者添加判断条件,当后端设置为MUSA时,调用。

2024-11-20 03:38:33 1607

原创 使用 MTT GPU 搭建个人 RAG 推理服务

​LLM RAG(Retrieval-Augmented Generation with Large Language Models)是一种结合大语言模型(LLM)和信息检索(IR)技术的生成方法,专门用于增强语言模型的上下文感知和准确性。在这种方法中,检索模块从一个外部知识库(例如文档、数据库或向量数据库)中获取相关信息,然后将这些检索到的内容与 LLM 结合,使得生成结果更加精准和信息丰富。​Ollama是一个工具和平台,专注于简化和优化大语言模型(LLM)的管理和部署。

2024-11-12 10:48:45 1121

原创 Moore Perf System 1.1版本

Moore Perf System(一款性能分析工具) 提供可视化界面,在时间轴上按时间顺序显示 CPU 和 GPU 的事件、吞吐和性能指标,帮助开发人员方便、快速、准确的定位到系统级别的性能瓶颈,进而进行针对性分析和优化,使程序性能满足需求。

2024-11-04 15:59:43 429

原创 充分赋能开发者,摩尔线程成立摩尔学院

摩尔学院是由摩尔线程创立的专业GPU技术培训与交流平台,专为GPU开发者、科研人员以及产业实践者设计,提供从入门到精通的全方位培训。

2024-10-31 16:56:30 358

原创 在 MTT GPU 上使用 llama.cpp 推理

​llama.cpp是一个纯 C/C++ 实现的项目,旨在简化大语言模型 (LLM) 的推理过程,并在多种硬件环境下提供最先进的性能支持,无论是本地部署还是云端运行。其主要目标是以最小的设置和依赖,让用户在广泛的硬件平台上轻松进行 LLaMA 等大模型的推理。

2024-10-13 00:05:32 1593

原创 基于生成式的图像隐式分解方法概述

扩散模型同样很难训练,他有数以亿计的参数量,因此目前大多论文都会选择微调(fine-tune)的方式,来使得大模型学到完成当前自己的任务所需要的先验信息。在这里我会简单介绍下生成模型的历史及发展,基于深度学习的生成式模型其实已有超十年的发展历史,2014年提出的生成对抗网络(Genarative adversarial network,GAN[2])就是生成式模型的一种,他在计算机视觉,人机交互等领域都有着大量研究,并随着模型理论研究的进展,网络结构的突破,不断延伸向其它领域。

2024-10-10 21:52:13 829

原创 使用MTVerseXR SDK实现VR串流

MTVerseXR SDK 是摩尔线程GPU加速的虚拟现实(VR)流媒体平台,专门用于从远程服务器流式传输基于标准OpenXR的应用程序。MTVerseXR可以通过Wi-Fi和USB流式将VR内容从Windows服务器流式传输到XR客户端设备, 使相对性能低的VR客户端可以使用高性能图形服务器的渲染能力。

2024-09-30 23:49:37 1668

原创 GPU 光栅化技术综述

早期的光栅化管线为不可编程式的固化功能,即给定一定格式的输入,其返回固定格式输出的形式,对图形表达能力有较大幅度的限制,后来的可编程管线的引入大幅提高了管线的灵活度,如顶点,几何,像素等着色器,从而提高了渲染的表现能力。固化的光栅化管线针对通用设计的,如通常面向较大的图元,而在不同粒度的图元,通常理论上所占用的算力不同,这导致其需要思考一个折中的方法,能够统一的处理所有样例,这可能也导致在某些情况下容易出现低效的表现,如密集的像素级的图元,由于功能设计上的让步,使其通常容易导致。,或者说产生多余像素,而。

2024-09-21 23:50:41 1007

原创 摩尔线程 GPU 在 Linux 下如何使用视频编解码

​用如下命令生成一个264测试码流下面是用Elecard StreamEye查看文件属性,可以看到该码流包含SEI用户自定义数据及B帧。

2024-09-14 14:14:59 1887 3

原创 摩尔线程正式开源音频理解大模型MooER

对比结果显示,我们的开源模型MooER-5K在六个中文测试集上的CER(字错误率)达到4.21%,在六个英文测试集的WER(词错误率)为17.98%,与其它开源模型相比,MooER-5K的效果更优或几乎持平。摩尔线程AI团队在该工作中开源了推理代码和5000小时数据训练的模型,并计划进一步开源训练代码和基于8万小时数据训练的模型,希望该工作能够在语音大模型的方法演进和技术落地方面为社区做出贡献。我们发现,在模型训练过程中采用LoRA技术对LLM参数进行更新,可以使训练更快收敛,并且最终取得更好的效果。

2024-08-25 00:39:33 896

原创 AI for Science-人工智能驱动的科学研究

​AI for science(AI4S, 人工智能在科学中的应用)是指利用人工智能技术解决科学研究中复杂问题和挑战的新兴领域。随着计算能力的快速增长和机器学习算法的进步,AI在各个科学领域的应用日益广泛,从基础研究到应用开发都在推动科学的前沿。2006年:Geoffrey Hinton等研究人员发表了关于深度神经网络的论文,标志着深度学习在机器学习中的复兴。这一技术重新引起了对多层神经网络的兴趣,并为未来的进展奠定了基础。

2024-08-25 00:25:57 2429

原创 Physical AI-物理AI

在强化学习的范式当中,智能体(Agent),就像人类学习一样,不断的与环境进行交互,从而改进自身的策略,以期最大化获得的奖励(Reward)。“Physics”有两个方面的含义,一方面,它指的是视觉上符合物理规律的表现,即采用基于物理的渲染技术(PBR);对于物理环境真实感的模拟,结合GPU并行的特征,为AI的学习创造了快速学习的环境。物理驱动的仿真环境能够满足这些多样化的需求,只需定义场景,物理和渲染引擎模拟的传感器就能捕获相应的数据。而空间智能,则是从2D图像的智能,提升到3D空间当中。

2024-08-25 00:21:15 677

原创 使用 Moore Perf System 进行程序性能分析及优化

Moore Perf System 提供可视化界面,在时间轴上按时间顺序显示 CPU 和 GPU 的事件、吞吐和性能指标,帮助开发人员方便、快速、准确的定位到系统级别的性能瓶颈,进而进行针对性分析和优化,使程序性能满足需求。

2024-08-25 00:14:40 935

原创 MUSA移植案例系列 - 分子动力学模拟应用GROMACS

Gromacs 是一款用于模拟生物大分子的软件,其核心是一个高效的分子动力学模拟程序。Gromacs 通过使用 GPU 加速来提高计算效率,目前 Gromacs 的 GPU 加速功能已经支持 NVIDIA、AMD 的 GPU 以及能够运行 OpenCL 程序的设备。为了让 Gromacs 能够在 MUSA 平台上运行,我们需要将 Gromacs 移植到 MUSA 平台上,从而实现利用 MUSA 平台的高性能计算资源来加速 Gromacs 计算的目的。

2024-06-25 13:07:33 1142

原创 使用musify对代码进行平台迁移

本文介绍了musify的设计意图,使用方法和当前的缺陷。可能有不少读者也意识到如果没有其他不同版本需要加以区分,单纯因为使用了文本匹配就将工具叫做musify-text是不充分的;事实上,介于语法分析过重,文本匹配不够智能,目前存在一个后续计划是引入词法分析进行一定的代码分析识别,准备使用musify-lexer作为命令名称。

2024-05-30 10:05:41 1827

原创 使用cmake构建MUSA工程

MUSA沿用了Modules的方式,也提供了相似的cmake模块供使用。保留了和CUDA几乎完全一致的使用方式,以达到用户尽可能方便地构建MUSA工程。这个兼容性也能带来快速迁移CUDA项目的便捷。在做项目迁移时,若项目使用cmake工具构建,则绝大多数情况下可以仅做文本替换,将CMakelist.txt中的CUDA替换成MUSA,CU前缀替换成MU前缀。

2024-05-26 09:49:05 772

原创 MUSA 硬件架构与 GPU 并行程序基础

1.引言 近几年来,AI技术和GPU等算力硬件相辅相成相互促进地迅猛发展。如今AI技术的应用已经在生活中随处可见,让人们开始意识到元宇宙的概念不是遥不可及。元宇宙这个大目标框架下,AI技术还有非常广阔的发展空间。为了支撑该技术,以GPU为首的算力底座硬件也在不断更新。摩尔线程GPU(Moore Threads GPU,简称MTGPU)作为全功能GPU,拥有图形显示和计算这构筑元宇宙的两大功能,为了实现这一点摩尔线程设计出元宇宙统一系统架构(Metaverse Unified System Ar

2024-05-07 14:49:59 3874 3

原创 MUSA Event 相关接口使用

B进程收到handle后,可以通过musaIpcOpenEventHandle打开对应的event,如果一切顺利,你就可以在进程B中操作这个event了,比如可以做前面讲到的同步某个stream、query event状态,不过需要注意的是,如果你使用了IPC类型的event,就无法通过这个event获取时间戳了。当我们使用musa的multiple stream时,如果需要同步不同的stream,我们可以选择使用event来做为同步点,依托摩尔线程GPU,使用户更简单高效发挥出GPU的算力。

2024-05-07 14:44:03 915

原创 基于 huggingface 模型分布式训练场景的 MUSA 应用移植

随着大模型的兴起,许多知名的开源模型(例如gpt,chatglm,llama,mistral等)都将预训练好的model放到了huggingface上,然后通过几行很简单的代码就能调用并进行训练或推理任务。需要注意的是,由于MUSA里随机数的生成机制与CUDA不同,模型里dropout层的输出有较大差异。其中--nproc_per_node表示训练的gpu卡数,--model_name_or_path表示想要训练哪种模型,–-batch_size指的单卡batch_size。占用显存/总显存(GB)

2024-05-07 14:37:33 2271

原创 摩尔线程-为美好世界加速

公司成立于2020年10月,[7]致力于创新面向元计算应用的新一代GPU,构建融合视觉计算、3D图形计算、科学计算及人工智能计算的综合计算平台,建立基于云原生GPU计算的生态系统,助力驱动数字经济发展。摩尔线程智能科技(北京)有限责任公司(简称:摩尔线程)是一家以GPU芯片[7]设计为主的集成电路高科技公司。

2024-04-20 01:50:27 346 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除