- 博客(22)
- 收藏
- 关注
原创 THman第三部分解读
异构最早完成时间(HEFT,Heterogeneous Earliest Finish Time)算法[18]是一种经典的启发式算法,旨在通过确定每个任务在不同处理器上的最早完成时间并选择最优处理器来执行任务,从而最小化工作流的完成时间。基于生成的DAG,我们结合天河HPC系统上的实际工作流特征(例如,节点和边的数量比、边权重的分布等)对DAG进行修改,使其更接近当前的实际工作流。为了全面评估(THman)的性能,我们在两种不同的场景下进行了评估:一种是使用缓冲区(BB)的场景,另一种是不使用BB的场景。
2025-04-03 18:19:25
765
原创 THman第二部分解读
(THman)的示意图如图2所示。放在了slurm之前(THman)将工作流描述和可用资源量作为输入,并将工作流转换为标准的有向无环图(DAG)-⃝1 -⃝2。然后,(THman)使用分层贡献优先(HCF)算法选择合适的任务-⃝3 ,并使用HPC资源管理器接口将任务提交到HPC系统上执行-⃝4 -⃝5。HPC资源管理器持续监控HPC系统上作业和资源的实时状态-⃝6。从第一个任务提交到系统上运行的那一刻起,(THman)不断从HPC资源管理器在线获取任务执行的实时状态和剩余可用资源-⃝7。
2025-04-03 10:05:53
226
原创 THman 第一部分解读
本节介绍了如何为在高性能计算(HPC)系统上调度工作流构建性能模型。一个工作流可以用一个标准的有向无环图(DAG)G=(V,E)G = (V, E)G=(V,E) 来表示,其中 VVV 是节点集,EEE 是边集。节点集 V={v0,v1,v2,…,vn,vn+1}V = \{v_0, v_1, v_2, \ldots, v_n, v_{n+1}\}V={v0,v1,v2,…,vn,vn+1} 中的节点是工作流任务,其中 v0v_0v0 是起始节点,vn+1v_{n+1}vn+1 是结束节点,n
2025-04-02 19:22:25
928
原创 IOR中文文档
n 表示n个线程同时写入hostfile可以指定这n个进程怎么分布在若干个点上。比如这里就设置了只有一个节点,这个节点并行上限是64进程。-t 1m 表示每次写入1M-b 16m 表示会连续写入16个1M-s 16 表示上述过程循环16次-e -C 去掉了cache的影响-F 表示每个 MPI 进程处理自己的文件。
2025-03-02 21:36:03
670
原创 ML-perf教程
注意,这里边dilo_benchmark是空的,需要去别处clone。需要把这个文件夹再次clone。只要cpu版本就可以了。
2025-01-13 17:39:47
187
原创 COT论文笔记(4)
论文名称:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters本博客范围:P9-P11出现在这个框里的是我的补充,不是原文。之前的部分可以查看我的主页QAQ。
2025-01-04 01:20:24
1042
1
原创 COT论文笔记(3)
论文名称:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters本博客范围:P6-P8。
2025-01-02 23:03:25
967
1
原创 COT论文笔记(2)
论文名称:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters本博客范围:P3-P5出现在这个框里的是我的补充,不是原文。
2024-12-31 03:17:20
1059
1
原创 dftracer(1)
现代高性能计算(HPC)工作流涉及仿真、数据分析和人工智能(AI)应用的复杂耦合,以提高科学洞察的时间。这些工作流需要一套协同的性能分析工具,以提供对HPC系统中数据交换模式的全面理解。然而,当前的工具并不设计用于与需要在应用程序的多个层次进行跟踪的基于AI的I/O软件堆栈一起工作。为此,我们开发了一个名为DFTracer的数据流跟踪器,用于捕获工作流和I/O堆栈中的数据中心事件,以建立对AI驱动工作流中数据交换的详细理解。DFTracer具有以下三个新颖功能,
2024-12-31 02:09:07
829
原创 COT论文笔记
通过利用更多的测试时计算来使大型语言模型(LLMs)改进其输出,这是朝着构建能够处理开放式自然语言的通用自改进智能体迈出的关键一步。在本文中,我们研究了大型语言模型中推理时计算的扩展情况,重点旨在回答这样一个问题:如果允许一个大型语言模型使用固定但并非微不足道的推理时计算量,那么它在应对具有挑战性的提示时能在多大程度上提升自身性能呢?回答这个问题不仅对大型语言模型可实现的性能有影响,而且关乎大型语言模型预训练的未来走向,以及人们应如何在推理时计算和预训练计算之间进行权衡。
2024-12-30 23:35:39
1119
1
原创 ssh失败
最奇怪的一步来了,我从powershell换成了gitbash再次尝试连接。一开始有一个第一次链接的输入【yes/no】的选项,然后表示连接失败。然后进行了 ssh-key -R 服务器IP,清除了本地记忆。随后报错变成了这样。咱也不懂为啥,网上也没有太多和我一样的流程。问题的产生原因:vscode链接服务器状态下重启电脑,然后重新连接失败了。由于十分确定是本地而不是服务器的问题,所以接下来我重启了电脑,换了一台电脑发现可以正常登录,认为是本地配置出了问题。然后gitbash再次尝试连接,就行了。
2024-11-20 15:35:04
290
原创 分布式I/O(3)
练手的任务选取cifar10, vision in transformer。选取的原因是1.transformer相比cnn更难收敛,所以优化的空间更大,可能更能体现(因为模型结构上没有利用CNN一样的“离得近的相关,离得远的不相关”的假设,对于CNN这个事情是given fact,对于vit要自己学出来)2.原则上性能上限不会低于cnn,甚至更好。
2024-11-11 23:32:46
971
原创 分布式训练的IO问题(2)
在编译 CUDA 程序时,使用nvcc来处理.cu文件,并调用适当版本的 GCC 编译主机代码。确保使用与您 CUDA Toolkit 版本兼容的 GCC 版本,以避免编译错误。如果需要特定版本的兼容性信息,可以查看 NVIDIA 的CUDA Toolkit 文档。
2024-11-03 22:59:19
479
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人