- 博客(91)
- 资源 (5)
- 收藏
- 关注
原创 前沿计组知识入门(四)
计算机集群上高效训练大型深度神经网络(DNN)的方法和技术。从神经网络的基本概念出发,逐步深入到并行训练的具体实现策略,包括数据并行、模型并行以及参数服务器的设计等。深度神经网络(DNN)的计算效率主要受限于内存访问瓶颈。由于DNN计算需要频繁读写数据(如权重、激活值和中间结果),内存访问(尤其是DRAM访问)成为主要的性能瓶颈。例如,AlexNet需要724M次MAC操作,但需要2896M次DRAM访问。为了减少内存访问,DNN加速器通常采用以下策略:数据流的设计是DNN加速器的关键,主要分为以下三类:并
2025-04-05 17:05:22
936
原创 Assignment 2: Building A Task Execution Library from the Ground Up
c149作业
2025-03-24 12:19:18
898
原创 密码学(Public-Key Cryptography and Discrete Logarithms)
计算c1amodpc1amodp的逆元是ElGamal密码体系解密过程中的关键步骤,它使得我们能够从密文中恢复出原始的明文消息。逆元的计算是基于模运算的性质和扩展欧几里得算法。ElGamal密码体系的安全性基于离散对数问题的难解性,即给定ggggamodpg^a \mod pgamodp和gkmodpg^k \mod pgkmodp,计算kkk或aaa是非常困难的。通过这个例子,我们可以看到ElGamal密码体系在扩展域。
2025-03-20 19:49:13
827
原创 intel® Implicit SPMD Program Compiler(ISPC)的用户指南
4. ISPC的并行执行模型ISPC的并行执行模型是其核心特性之一,它基于SPMD(单程序多数据)编程模型,允许开发者高效地利用CPU和GPU的SIMD(单指令多数据)能力。4.1 程序实例和程序组(Gangs)程序实例(Program Instance):在ISPC中,程序实例是并行执行的基本单位,类似于CUDA中的“线程”或OpenCL中的“工作项”。每个程序实例独立执行相同的代码,但处理不同的数据。程序组(Gang):一组同时执行的程序实例称为一个程序组。
2025-03-20 13:40:57
854
原创 前沿计组知识入门(三)
三种硬件架构:多核执行、SIMD执行、硬件多线程。多核执行通过多个处理器核心同时执行任务来提高性能;SIMD执行允许多个数据元素在单个指令的控制下同时被处理;硬件多线程则通过在单个核心上同时运行多个线程来提高资源利用率和性能。延迟与带宽:内存延迟是指从内存中获取一个数据项所需的时间,而内存带宽是指内存系统向处理器提供数据的速率。例如,从旧金山到斯坦福开车需要0.5小时(延迟),而每小时通过高速公路运输2辆车(吞吐量)。
2025-03-15 18:44:13
925
原创 mysql总结
数据库定义:用于存储数据的仓库,通过SQL语句操作。数据库作用:存储应用程序中的数据,便于管理和查询。数据库分类:关系型数据库(如MySQL、Oracle、DB2)和非关系型数据库(如Redis、HBase)。关系型数据库:通过E-R图描述数据之间的关系,支持复杂查询。
2025-03-15 13:44:20
957
原创 stanford并行程序设计asset1:四核CPU性能分析
线程抽象和 ISPC 任务抽象主要有以下区别:线程是重量级的,每个线程都有独立的栈和上下文,适合复杂的、需要独立执行流的任务;如果你启动 10,000 个 ISPC 任务,运行时系统会高效地管理这些任务,将它们分配到可用的 CPU 核心上,即使任务数量远超核心数量,系统也能保持较高的效率。相反,如果启动 10,000 个线程,操作系统的线程调度和资源分配会变得非常低效,可能导致系统性能严重下降,甚至出现资源耗尽的情况。掩码中为1的位置表示对应的元素将被加载,为0的位置表示对应的元素保持原值。
2025-03-07 17:49:19
719
原创 (未完)3D Shape Tokenization
我们引入了形状标记(Shape Tokens),这是一种连续、紧凑且易于融入机器学习模型的3D表示方法。形状标记作为3D流匹配模型中的条件向量,代表形状信息。流匹配模型通过训练来近似3D中形状表面的delta函数的概率密度函数。通过将形状标记附加到各种机器学习模型中,我们可以生成新形状、将图像转换为3D、使3D形状与文本和图像对齐,并以用户指定的可变分辨率直接渲染形状。此外,形状标记还能够系统地分析几何属性,如法线、密度和变形场。在所有任务和实验中,使用形状标记的表现与现有基线相比具有强大的性能。
2025-03-02 01:56:37
634
原创 SDF,占用场,辐射场简要笔记
符号距离函数(Signed Distance Function,SDF)的数学公式用于描述空间中任意点到某个几何形状边界的最短距离,并通过符号区分点在边界内外。具体定义如下:假设Ω是一个几何形状的边界,对于空间中的任意点x,符号距离函数SDFxxΩSDFx0xΩSDFx0xΩSDFx0SDFxminy∈Ω∥x−y∥−miny∈Ω∥x−y∥ifx∈Ωifx∈Ω其中,∥x−y∥表示点。
2025-03-01 22:40:53
718
原创 密码学(哈希函数)
预处理:填充(若需)并分割输入为固定长度块。处理:逐块压缩,将前一状态与当前块组合。输出转换:直接取最终压缩结果(或进一步处理)。通过迭代设计,即使输入极长,也能高效生成固定长度输出,并累积处理全输入。迭代哈希函数的示例1990年,MD4,由 Rivest 提出。1992年,MD5,对 MD4 的修改,由 Rivest 提出。1993年,SHA(-0),由 NIST 提出作为标准,被采用为 FIPS 180。1995年,SHA-1,对 SHA 的小幅修改,被发布为 FIPS 180-1。
2025-02-28 18:01:05
1874
原创 前沿计组知识入门(二)
Amdahl定律并行化的最大加速比受限于程序中的串行执行部分。创建并行程序的方面分解以创建独立工作、将工作分配给工作者、协调(协调工作者的工作处理)、映射到硬件。未来讨论重点识别依赖关系(今天重点)。识别局部性、减少同步(即将讨论)。
2025-02-26 14:06:45
625
原创 StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields
3D风格迁移的目标是在多视图一致性的情况下,渲染出具有目标风格的3D场景的新视图。然而,现有的大多数工作在精确几何重建、高质量风格化以及对任意新风格的泛化能力之间面临着三难困境。我们提出了StyleRF(Style Radiance Fields),一种创新的3D风格迁移技术,通过在辐射场的特征空间内进行风格转换来解决这一三难困境。StyleRF采用一个显式的高维特征网格来表示3D场景,通过体积渲染可以可靠地恢复高保真几何结构。此外,它根据参考风格转换网格特征,直接实现高质量的零样本风格迁移。
2025-02-25 11:27:22
556
原创 BAG: Body-Aligned 3D Wearable Asset Generation
本文提出了一种名为BAG(Body-Aligned Asset Generation)的方法,用于生成能够自动穿在给定三维人体模型上的三维可穿戴资产。该方法通过利用人体形状和姿态信息控制三维生成过程实现,首先构建了一个从单视图图像到一致多视图图像扩散模型,并在大规模的Objaverse数据集上进行训练以实现多样性和泛化能力。接着训练一个Controlnet来引导多视图生成器产生与人体对齐的多视图图像,这些图像随后被输入到一个原生的三维扩散模型中以生成资产的三维形状。
2025-02-24 00:48:16
1010
原创 (未完)BCNet: Learning Body and Cloth Shape from A Single Image
本文提出了一种从单张近正面视角RGB图像自动重建服装和人体形状的方法。为此,我们提出了基于SMPL(Skinned Multi-Person Linear Model,多人线性蒙皮模型)的分层服装表示方法,并创新性地使服装的蒙皮权重与人体网格独立,显著提高了服装模型的表现能力。与现有方法相比,我们的方法支持更多种类的服装,并能恢复更准确的几何形状。为了训练我们的模型,我们构建了两个大规模数据集,包含真实的人体和服装几何形状以及配对的彩色图像。
2025-02-23 14:59:41
999
原创 前沿计组知识入门
这份PDF是斯坦福大学CS149课程(2024年秋季)的第七讲讲义,主题是“GPU架构与CUDA编程”。它详细介绍了GPU的发展历程、架构设计、CUDA编程模型以及GPU的执行和调度机制。从GPU之后,硬件技术的发展呈现出多样化和专业化的特点,主要围绕着高性能计算、人工智能、数据中心、物联网和移动设备等领域展开。这份PDF文件是一份关于计算机体系结构的讲义,涵盖了从基础概念到高级主题的多个方面。
2025-02-19 23:07:29
400
原创 ML汇总(三)
DETR(Detection Transformer)是Facebook于2020年提出的一种基于Transformer的端到端目标检测模型。Transformer编码器-解码器架构:模型使用Transformer的编码器和解码器来处理图像特征和目标检测任务。常用的两个阶段网络包括:R-CNN [3],快速R-CNN [4]和FasterRCNN [5]。集合预测:通过二分匹配损失函数,DETR直接预测图像中的所有目标,而不是逐个预测。常用的一阶段网络包括:Yolo [6]和SSD [7]架构。
2025-02-15 01:24:02
658
原创 (未完)Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer
生成高质量的3D资产长期以来面临挑战,主要原因在于缺乏能够捕捉复杂几何分布的可扩展3D表示方法。本文提出了Direct3D——一种原生3D生成模型,可直接从单张图像生成3D形状,无需依赖多视角扩散模型或SDS优化。D3D-VAE:通过半连续表面采样策略直接监督几何解码,将高分辨率3D形状编码为紧凑的三平面(triplane)潜在空间。D3D-DiT:专为三平面潜在空间设计的扩散Transformer,融合像素级(DINOv2)和语义级(CLIP)图像条件,实现与输入图像高度一致的3D生成。
2025-02-14 13:57:59
998
原创 ML汇总(二)
计算相似度。首先,我们计算查询图像和其他图像的嵌入之间的相似度。点积[10]和余弦相似度[11]被广泛用于测量嵌入空间中点之间的相似度。欧氏距离[12]也可以衡量相似度。然而,由于维数灾难,欧几里得距离通常在高维中表现不佳[13]。要了解有关维数灾难问题的更多信息,请阅读[14]。
2025-01-26 01:13:50
550
原创 ML汇总(一)
大规模训练变得越来越重要,因为模型随着时间的推移变得越来越大,并且数据集的大小也急剧增加。神经网络: 受人脑启发的一组算法,用于各种任务,包括分类、回归和更复杂的任务,如图像识别。在量化中,我们使用更少的位数来表示参数,从而减小了模型的大小。随机森林: 另一种集成方法,它独立构建多个决策树,并平均它们的预测(用于回归)或进行多数投票(用于分类)。GBDT: 一种集成技术,它按顺序构建多个决策树,每个树纠正前一个的错误。知识蒸馏:知识蒸馏的目标是训练一个小模型(学生)来模仿更大的模型(老师)。
2025-01-11 23:17:02
887
原创 2024acl论文体悟
模型架构与训练方法:一些论文关注于改进大语言模型的架构和训练方法,以提高其性能和效率。例如,“Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models”提出了一种量化侧调优方法,通过量化模型权重和引入侧网络,实现了快速且内存高效的微调,显著降低了内存占用并加速了微调过程.模型能力与局限性:研究者们试图深入理解大语言模型的能力和局限性。
2025-01-09 16:44:34
795
原创 ACL2024优秀论文合集
https://2024.aclweb.org/program/best_papers/#best-theme-paper-awardsBest Paper Awards最佳论文奖Mission: Impossible Language Models使命:不可能的语言模型Chomsky and others have very directly claimed that large language models (LLMs) are equally capable of learning lan
2025-01-09 16:36:13
668
原创 Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances
这篇论文提出了一种新的无监督多模态聚类方法(UMC),用于在多模态话语中发现语义。该方法通过构建多模态数据的增强视图进行预训练,以获得良好的初始化表示,然后进行聚类。UMC方法在多模态意图识别和对话行为识别任务中表现出色,相较于现有方法在标准聚类指标上提高了2-6%。多模态语义发现任务的首次探索:实现方式:论文提出了一种新的无监督多模态聚类方法(UMC),通过构建多模态数据的增强视图进行预训练,以获得良好的初始化表示,然后进行聚类。
2025-01-08 00:40:24
787
原创 Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models
图片左侧展示了一个标准神经网络流程图,包含嵌入层、一系列标为f116bitf116bit到fN16bitfN16bit的层,以及一个语言模型(LM)头,从输入到输出的处理。中间部分显示这个网络被量化到4位精度,将层转换为f14bitf^{4bit}_1f14bit到fN4bitf^{4bit}_NfN4bit。
2025-01-07 11:51:59
1081
原创 强化学习笔记
第四章序列建模与概率图模型序列建模是分析时间序列数据的一种方法,通常用于预测未来的事件。概率图模型是一种表示随机变量及其依赖关系的图形化模型。常见的概率图模型包括贝叶斯网络和马尔可夫随机场。贝叶斯网络贝叶斯网络(Bayesian Network)是一种有向无环图(DAG),用于表示随机变量之间的条件依赖关系。它通过节点表示随机变量,通过有向边表示变量之间的依赖关系。贝叶斯网络常用于概率推理和决策分析,能够高效地处理不完全数据和进行预测。马尔可夫随机场马尔可夫随机场(Markov Random
2024-12-22 22:20:33
1155
原创 六级作文复习笔记 (二)
In the temporary contemporary society, it is a common phenomenon that for nearly every adults adult to be confronted with stress and responsible responsibility in work. Meanwhile, according to a survey, a majority of people admit they need personal inte
2024-12-14 14:36:54
759
原创 六级同义词替换笔记
plod(吃力地行进), go, creep, crawl, inch, poke, drag, toddle, shuffle, trot, dawdle, walk, traipse, mosey, jog, plug, trudge, slump, lumber, trail, lag, run, sprint, trip, bound, hotfoot, high-tail, streak, stride, tear, breeze, whisk, rush, dash, dart(猛冲;
2024-12-14 12:20:15
854
原创 六级写作翻译单词复习笔记
submission 投稿clinic 诊所internship 实习seminar 研讨会 webinardiploma 文凭entrepreneur 企业 entrepreneurship spirit 创业精神commuting 通勤utility 公用设施 infrastructure 基础设施(power grid 电网)resume --CV 简历unmanned aerial(天线) vehicles(drones)digital economy 数字经济。
2024-12-14 01:46:44
689
原创 六级作文/翻译复习笔记(三)
The most famous tourist attractions of the West Lake include Broken Bridge, Leifeng Pagoda(佛塔) and Sudi, attracting thousands of tourists to visit.(It has attracted thousands of tourists to visit.)(存在) many beautiful islands and bridges on the lake.
2024-12-12 22:36:27
812
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人