自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 THman第三部分解读

异构最早完成时间(HEFT,Heterogeneous Earliest Finish Time)算法[18]是一种经典的启发式算法,旨在通过确定每个任务在不同处理器上的最早完成时间并选择最优处理器来执行任务,从而最小化工作流的完成时间。基于生成的DAG,我们结合天河HPC系统上的实际工作流特征(例如,节点和边的数量比、边权重的分布等)对DAG进行修改,使其更接近当前的实际工作流。为了全面评估(THman)的性能,我们在两种不同的场景下进行了评估:一种是使用缓冲区(BB)的场景,另一种是不使用BB的场景。

2025-04-03 18:19:25 765

原创 THman第二部分解读

(THman)的示意图如图2所示。放在了slurm之前(THman)将工作流描述和可用资源量作为输入,并将工作流转换为标准的有向无环图(DAG)-⃝1 -⃝2。然后,(THman)使用分层贡献优先(HCF)算法选择合适的任务-⃝3 ,并使用HPC资源管理器接口将任务提交到HPC系统上执行-⃝4 -⃝5。HPC资源管理器持续监控HPC系统上作业和资源的实时状态-⃝6。从第一个任务提交到系统上运行的那一刻起,(THman)不断从HPC资源管理器在线获取任务执行的实时状态和剩余可用资源-⃝7。

2025-04-03 10:05:53 226

原创 THman 第一部分解读

本节介绍了如何为在高性能计算(HPC)系统上调度工作流构建性能模型。一个工作流可以用一个标准的有向无环图(DAG)G=(V,E)G = (V, E)G=(V,E) 来表示,其中 VVV 是节点集,EEE 是边集。节点集 V={v0,v1,v2,…,vn,vn+1}V = \{v_0, v_1, v_2, \ldots, v_n, v_{n+1}\}V={v0​,v1​,v2​,…,vn​,vn+1​} 中的节点是工作流任务,其中 v0v_0v0​ 是起始节点,vn+1v_{n+1}vn+1​ 是结束节点,n

2025-04-02 19:22:25 928

原创 Nyx 中文文档

Nyx是一个用于大规模并行计算机的,专门用于宇宙学模拟。它将可压缩流体动力学方程与暗物质的粒子表示结合在一起。

2025-03-10 11:00:14 802

原创 IOR中文文档

n 表示n个线程同时写入hostfile可以指定这n个进程怎么分布在若干个点上。比如这里就设置了只有一个节点,这个节点并行上限是64进程。-t 1m 表示每次写入1M-b 16m 表示会连续写入16个1M-s 16 表示上述过程循环16次-e -C 去掉了cache的影响-F 表示每个 MPI 进程处理自己的文件。

2025-03-02 21:36:03 670

原创 ML-perf教程

注意,这里边dilo_benchmark是空的,需要去别处clone。需要把这个文件夹再次clone。只要cpu版本就可以了。

2025-01-13 17:39:47 187

原创 COT论文笔记(4)

论文名称:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters本博客范围:P9-P11出现在这个框里的是我的补充,不是原文。之前的部分可以查看我的主页QAQ。

2025-01-04 01:20:24 1042 1

原创 COT论文笔记(3)

论文名称:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters本博客范围:P6-P8。

2025-01-02 23:03:25 967 1

原创 COT论文笔记(2)

论文名称:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters本博客范围:P3-P5出现在这个框里的是我的补充,不是原文。

2024-12-31 03:17:20 1059 1

原创 dftracer(1)

现代高性能计算(HPC)工作流涉及仿真、数据分析和人工智能(AI)应用的复杂耦合,以提高科学洞察的时间。这些工作流需要一套协同的性能分析工具,以提供对HPC系统中数据交换模式的全面理解。然而,当前的工具并不设计用于与需要在应用程序的多个层次进行跟踪的基于AI的I/O软件堆栈一起工作。为此,我们开发了一个名为DFTracer的数据流跟踪器,用于捕获工作流和I/O堆栈中的数据中心事件,以建立对AI驱动工作流中数据交换的详细理解。DFTracer具有以下三个新颖功能,

2024-12-31 02:09:07 829

原创 COT论文笔记

通过利用更多的测试时计算来使大型语言模型(LLMs)改进其输出,这是朝着构建能够处理开放式自然语言的通用自改进智能体迈出的关键一步。在本文中,我们研究了大型语言模型中推理时计算的扩展情况,重点旨在回答这样一个问题:如果允许一个大型语言模型使用固定但并非微不足道的推理时计算量,那么它在应对具有挑战性的提示时能在多大程度上提升自身性能呢?回答这个问题不仅对大型语言模型可实现的性能有影响,而且关乎大型语言模型预训练的未来走向,以及人们应如何在推理时计算和预训练计算之间进行权衡。

2024-12-30 23:35:39 1119 1

原创 分布式I/O (5)

为了保持(4)按照原论文的主线进行,不被打断,一些零散知识记在此。

2024-12-16 13:28:19 287

原创 dlio_profiler_py

这个包非常奇怪,各种报错,受不了了。最后再试一晚上,还做不出来就随便吧。

2024-12-13 19:11:18 110

原创 build my own redis(2)

使用python的话,主要的任务就是解析和插入字典。全局共享同一个字典就可以了。

2024-11-22 23:28:55 212

原创 build my own redis

这个月免费了,做一遍记录一下。

2024-11-22 00:56:46 462

原创 ssh失败

最奇怪的一步来了,我从powershell换成了gitbash再次尝试连接。一开始有一个第一次链接的输入【yes/no】的选项,然后表示连接失败。然后进行了 ssh-key -R 服务器IP,清除了本地记忆。随后报错变成了这样。咱也不懂为啥,网上也没有太多和我一样的流程。问题的产生原因:vscode链接服务器状态下重启电脑,然后重新连接失败了。由于十分确定是本地而不是服务器的问题,所以接下来我重启了电脑,换了一台电脑发现可以正常登录,认为是本地配置出了问题。然后gitbash再次尝试连接,就行了。

2024-11-20 15:35:04 290

原创 分布式I/O(3)

练手的任务选取cifar10, vision in transformer。选取的原因是1.transformer相比cnn更难收敛,所以优化的空间更大,可能更能体现(因为模型结构上没有利用CNN一样的“离得近的相关,离得远的不相关”的假设,对于CNN这个事情是given fact,对于vit要自己学出来)2.原则上性能上限不会低于cnn,甚至更好。

2024-11-11 23:32:46 971

原创 分布式训练的IO问题(2)

在编译 CUDA 程序时,使用nvcc来处理.cu文件,并调用适当版本的 GCC 编译主机代码。确保使用与您 CUDA Toolkit 版本兼容的 GCC 版本,以避免编译错误。如果需要特定版本的兼容性信息,可以查看 NVIDIA 的CUDA Toolkit 文档。

2024-11-03 22:59:19 479

原创 B-第一次作业解析

给这个程序绘制流程图。

2024-10-17 18:28:25 233

原创 分布式训练的IO问题(1)

进行mount挂载指令时出错。

2024-10-15 10:34:24 739

原创 邮箱发送成绩

我有一个excel文件,记录了每个人的姓名,邮箱和分数现在我要将每个人的分数发送到对应的邮箱。

2023-11-14 14:42:24 439 1

原创 ICS-linux001

习题课的笔记 基于中科大vlab的linux入门

2022-12-04 21:54:43 462

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除