自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

原创 NVIDIA CUDA 高度并行处理器编程(七):并行模式:前缀和

CUDA前缀和计算。

2022-07-02 12:27:40 2574 21

原创 操作系统概念——编程项目二

操作系统概念——编程项目二

2022-10-21 18:30:26 1616 3

原创 计算机网络 谢希仁(第8版)第五章习题答案

计算机网络原理 谢希仁(第8版)第五章习题答案

2022-09-25 13:08:37 46418 19

原创 【C++】超详细入门——详解函数返回类型

详解C++中函数的返回类型

2022-09-06 08:26:22 6170 7

原创 计算机网络原理 谢希仁(第8版)第四章习题答案

第四章网络层习题答案

2022-09-05 17:00:32 103417 89

原创 经典算法之堆排序及优先队列

介绍优先队列,并以优先队列为基础引入堆排序算法

2022-08-20 21:01:08 1156 7

原创 快速排序的非递归形式和一个小应用

介绍快速排序的非递归形式和一个应用,以及partition的内循环优化。

2022-08-18 17:44:00 847 7

原创 经典算法之快速排序

介绍快速排序

2022-08-16 13:42:44 800 6

原创 【C++】超详细入门 —— 一文带你搞懂const限定符

全面讲解 const 限定符

2022-08-16 11:45:15 1403 5

原创 计算机网络原理 谢希仁(第8版)第三章习题答案

第三章答案

2022-08-14 23:58:41 56002 21

原创 经典算法之冒泡排序

介绍冒泡排序

2022-08-13 13:39:21 911 1

原创 经典算法之折半插入排序

超详细介绍折半插入排序。

2022-08-10 18:34:16 517 23

原创 经典算法之折半查找

本文为优快云21天挑战赛系列文章,介绍基础的折半查找算法,以及改进后用于查找元素第一次与最后一次出现的位置的算法。

2022-08-10 15:53:43 1598 7

原创 计算机网络原理 谢希仁(第8版)第一章习题答案

第一章习题详解

2022-08-10 13:56:28 38557 9

原创 计算机网络原理 谢希仁(第8版)第二章习题答案

计算机网络原理 谢希仁(第8版)第二章习题答案

2022-08-10 13:56:14 31446 8

原创 【C++】超详细入门——lambda表达式

超详细解析C++ lambda表达式

2022-08-08 16:05:09 3060 20

原创 经典算法之选择排序

直接选择排序与堆排序

2022-08-07 23:16:25 511 4

原创 经典算法之插入排序

介绍直接插入排序与希尔排序

2022-08-06 18:00:39 417 17

原创 经典算法之顺序查找

顺序查找简介

2022-08-03 22:54:46 1158 11

原创 中序表达式转为后序表达式

中序表达式计算以及中序表达式转为后序表达式。

2022-08-02 15:11:42 1766 11

原创 二分查找一个数首次与最后出现的位置

用来查找某元素在数组中第一次与最后一次出现的位置,时间复杂度为O(log)

2022-07-29 19:33:29 1309 6

原创 c++ primer 笔记:函数及练习题解

详细介绍函数的定义、调用,以及各种形参与返回值。

2022-07-22 17:57:43 1001 1

原创 c++ primer 笔记:语句及练习题解

根据 C++ primer 介绍 C++ 中的循环、分支、跳转和异常处理语句

2022-07-19 16:21:18 702 10

原创 CSS中的相对单位

解析CSS中的相对单位

2022-07-18 23:49:11 1178 1

原创 归约求和算法(三)

本文使用一种循环调用kernel的方法对块内归约的结果进行求和,直接从kernel输出最终结果。而且每个线程都执行运算,能处理的元素数是原来算法的两倍。

2022-07-18 17:32:31 777 1

原创 NVIDIA CUDA 高度并行处理器编程(四):性能优化习题

优化后的归约与矩阵乘法算法,以及分块矩阵的内存连续访问证明

2022-07-18 15:10:45 532 1

原创 c++ primer 笔记:表达式及练习题解

介绍C++中表达式。

2022-07-15 23:46:56 878 1

原创 HTML5中的全局属性

html5中的全局属性概览

2022-07-14 17:05:32 958 2

原创 c++ primer 笔记:字符串、向量和数组及练习题解

C-- primer 笔记:字符串、向量和数组及练习题解

2022-07-13 19:13:44 933

原创 c++ primer 笔记:变量和基本类型及练习题解

C++primer变量和基本类型及题解

2022-07-11 21:12:18 1436 1

原创 NVIDIA CUDA 高度并行处理器编程(九):并行模式:稀疏矩阵-向量乘法

CUDA 稀疏矩阵向量乘法。

2022-07-10 15:08:31 2620 1

原创 NVIDIA CUDA 高度并行处理器编程(八):并行模式:直方图计算

利用 CUDA 计算直方图,尽可能对算法进行优化。

2022-07-04 22:45:33 1267 11

原创 基于 HashMap 和 双向链表实现 LRU

基于HashMap和双向链表实现LRU

2022-06-26 23:47:50 1212 2

原创 NVIDIA CUDA 高度并行处理器编程(六):并行模式:卷积

CUDA卷积。

2022-06-12 14:30:54 2177 4

原创 win11+MX250+CUDA Tookit 10.1 update 2

win11+MX250安装CUDA

2022-06-11 17:01:11 1252 2

原创 并行程序设计大作业——稀疏神经网络推理

神经网络前向传播优化:60000 * 1024 的矩阵 A 分别与 120 个1024*1024的稀疏矩阵 B [i]相乘。A 与 B[i] 相乘后用激活函数 relu 激活,激活后的 C 矩阵作为下一次的矩阵 A 。使传播时间尽可能短。

2022-06-10 01:05:15 1271 5

原创 NVIDIA CUDA 高度并行处理器编程(五):浮点运算

NVIDIA CUDA 高度并行处理器编程(五):浮点运算浮点格式M 的规范化表示E 的余码表示能表示的数特殊的位模式与 IEEE 格式中的精度算术运算的准确度和舍入算法的优化数值稳定性浮点格式在 IEEE-754 浮点标准中,一个数值由 3 部分组成:符号位(S)、阶码(E)和尾数(M)。除了某些例外,每个(S、E、M)模式根据下列格式可以标示一个唯一的数值:value=(−1)S×1.M×2E−biasvalue = (-1)^S \times 1.M \times {2^{E-bias}}val

2022-06-07 21:42:14 1095

原创 稀疏矩阵的CSR存储方式

稀疏矩阵的存储方式稀疏矩阵的存储方式CSR(compressed sparse row)稀疏矩阵的存储方式稀疏矩阵是数值计算中普遍存在的一类矩阵,主要特点是绝大部分的矩阵元为零。对于矩阵维度比较小的情况,利用稀疏矩阵特殊性并不能完全发挥优势。然而对于大型矩阵,例如矩阵维度超过10000,那么稀疏矩阵不仅节省存储空间,并且可以让线性代数算法得到极大的加速。比如大部分稀疏矩阵的算法均基于递推方法求解,即主要依赖于矩阵矢量乘法,这样很容易知道利用稀疏性可以优化该类算法的时间复杂度。稀疏矩阵的存储格式往往依赖

2022-05-24 16:13:55 4809 1

原创 NVIDIA CUDA 高度并行处理器编程(三):CUDA存储器习题

NVIDIA CUDA 高度并行处理器编程(三):CUDA存储器习题习题一中第一题,矩阵加法。可以使用共享存储器减少全局存储器对宽带的消耗吗?答:不可以,在每个线程计算一个的 kernel 函数中,每个线程只访问两个所需元素,且每个元素只被访问并加载一次。因为没有元素的重复访问,所以不能使用共享存储器减少全局存储器对宽带的消耗。对于分块矩阵乘法,证明全局存储器宽带的减少正比于块的维度大小。证明:不用分块的每个元素要加载 n 次,假设块维度 i,则每个块需要加载 n/i + 1 次。得证。

2022-05-21 22:13:10 802

原创 NVIDIA CUDA 高度并行处理器编程(二):数据并行执行习题

NVIDIA CUDA 高度并行处理器编程(二):数据并行执行习题如果一 CUDA 设备的一个 SM 能容纳 1536 个线程和 4 个线程块,下面那种线程块配置使得一个 SM 中能容纳最多的线程?a. 每个线程块 128 个线程b. 每个线程块 256 个线程c. 每个线程块 512 个线程d. 每个线程块 1024 个线程答:c, 一个 SM 容纳 3 个线程块,共 1536 个线程。向量加法中,假定向量长度是 2000, 每个线程产生一个输出元素,每个线程块包含 512 个线程。

2022-05-21 15:29:57 577

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除