
计组
文章平均质量分 85
tianyunlinger
这个作者很懒,什么都没留下…
展开
-
前沿计组知识入门(五)
这份教程提供了对大规模模型和联邦学习中ML系统设计的深入分析,强调了并行化策略的重要性和自动化工具的潜力。原创 2025-04-16 14:21:47 · 520 阅读 · 0 评论 -
Assignment3:Parallel SGD
【代码】Assignment3:Parallel SGD。原创 2025-04-10 15:50:27 · 213 阅读 · 0 评论 -
前沿计组知识入门(四)
计算机集群上高效训练大型深度神经网络(DNN)的方法和技术。从神经网络的基本概念出发,逐步深入到并行训练的具体实现策略,包括数据并行、模型并行以及参数服务器的设计等。深度神经网络(DNN)的计算效率主要受限于内存访问瓶颈。由于DNN计算需要频繁读写数据(如权重、激活值和中间结果),内存访问(尤其是DRAM访问)成为主要的性能瓶颈。例如,AlexNet需要724M次MAC操作,但需要2896M次DRAM访问。为了减少内存访问,DNN加速器通常采用以下策略:数据流的设计是DNN加速器的关键,主要分为以下三类:并原创 2025-04-05 17:05:22 · 949 阅读 · 0 评论 -
intel® Implicit SPMD Program Compiler(ISPC)的用户指南
4. ISPC的并行执行模型ISPC的并行执行模型是其核心特性之一,它基于SPMD(单程序多数据)编程模型,允许开发者高效地利用CPU和GPU的SIMD(单指令多数据)能力。4.1 程序实例和程序组(Gangs)程序实例(Program Instance):在ISPC中,程序实例是并行执行的基本单位,类似于CUDA中的“线程”或OpenCL中的“工作项”。每个程序实例独立执行相同的代码,但处理不同的数据。程序组(Gang):一组同时执行的程序实例称为一个程序组。原创 2025-03-20 13:40:57 · 888 阅读 · 0 评论 -
Assignment 2: Building A Task Execution Library from the Ground Up
c149作业原创 2025-03-24 12:19:18 · 909 阅读 · 0 评论 -
stanford并行程序设计asset1:四核CPU性能分析
线程抽象和 ISPC 任务抽象主要有以下区别:线程是重量级的,每个线程都有独立的栈和上下文,适合复杂的、需要独立执行流的任务;如果你启动 10,000 个 ISPC 任务,运行时系统会高效地管理这些任务,将它们分配到可用的 CPU 核心上,即使任务数量远超核心数量,系统也能保持较高的效率。相反,如果启动 10,000 个线程,操作系统的线程调度和资源分配会变得非常低效,可能导致系统性能严重下降,甚至出现资源耗尽的情况。掩码中为1的位置表示对应的元素将被加载,为0的位置表示对应的元素保持原值。原创 2025-03-07 17:49:19 · 727 阅读 · 0 评论 -
前沿计组知识入门(三)
三种硬件架构:多核执行、SIMD执行、硬件多线程。多核执行通过多个处理器核心同时执行任务来提高性能;SIMD执行允许多个数据元素在单个指令的控制下同时被处理;硬件多线程则通过在单个核心上同时运行多个线程来提高资源利用率和性能。延迟与带宽:内存延迟是指从内存中获取一个数据项所需的时间,而内存带宽是指内存系统向处理器提供数据的速率。例如,从旧金山到斯坦福开车需要0.5小时(延迟),而每小时通过高速公路运输2辆车(吞吐量)。原创 2025-03-15 18:44:13 · 986 阅读 · 0 评论 -
前沿计组知识入门(二)
Amdahl定律并行化的最大加速比受限于程序中的串行执行部分。创建并行程序的方面分解以创建独立工作、将工作分配给工作者、协调(协调工作者的工作处理)、映射到硬件。未来讨论重点识别依赖关系(今天重点)。识别局部性、减少同步(即将讨论)。原创 2025-02-26 14:06:45 · 638 阅读 · 0 评论 -
前沿计组知识入门
这份PDF是斯坦福大学CS149课程(2024年秋季)的第七讲讲义,主题是“GPU架构与CUDA编程”。它详细介绍了GPU的发展历程、架构设计、CUDA编程模型以及GPU的执行和调度机制。从GPU之后,硬件技术的发展呈现出多样化和专业化的特点,主要围绕着高性能计算、人工智能、数据中心、物联网和移动设备等领域展开。这份PDF文件是一份关于计算机体系结构的讲义,涵盖了从基础概念到高级主题的多个方面。原创 2025-02-19 23:07:29 · 405 阅读 · 0 评论 -
计算机组成与体系结构读书笔记
计算机组成与体系结构读书笔记(一)一一1.计算机组织处理控制信号、信号方法和存储类型等问题,包括了计算机系统的所有物理方面计算机体系结构集中于计算机体系结构和行为的研究,看待系统所实现的逻辑与抽象2.ISA 指令集架构,是机器上运行的软件与执行软件的硬件之间的共同认可的接口3.cache 高速缓冲存储器4.电器和电子工程师协会 IEEE 国际电信联盟 ITU 国际标准化组织 ISO5.小规模集成 SSI 中等规模集成 MSI 大规模集成 LSI 超大规模集成 VLSI 特大规模集成 ULSI原创 2021-07-30 00:50:31 · 699 阅读 · 0 评论