- 博客(29)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 NVIDIA GPU Wavefronts
NVIDIA GPU中Volta及更新的架构,L1TEX的处理流程可以简化描述如下:当一个SM(流式多处理器)为一个warp执行Global或Local内存指令时,会向L1TEX发送一个Request。这个Request包含了该warp中所有参与线程(最多32个线程)的信息。对于全局和本地内存,根据访问模式和参与的线程数量,Request需要访问多个cache line以及这些cache line内的多个sector。L1TEX单元内部有多个处理阶段,以流水线方式运行。
2024-08-10 18:16:09
690
1
原创 GPU Warp Stall的原因汇总
因此,当同一个线程束内的线程只访问少数几个不同的位置时,常量缓存的效果最好。未被选中的线程束是指那些符合条件但本周期未被调度器选中的线程束,因为另一个线程束被选择了。大量未被选中的线程束通常意味着你有足够的线程束来掩盖线程束的延迟,你可以考虑减少活动线程束的数量,以可能提高缓存一致性及数据局部性。线程束(Warp)在退出后被停滞,等待所有未完成的内存操作完成以便释放该线程束的资源。减少执行的NANOSLEEP指令的数量,降低指定的时间延迟,并尝试将线程按组划分,使得线程束内的多个线程同时进入睡眠状态。
2024-08-10 17:23:18
860
原创 P4_16使用table实现通用的switch分支语句
可编程交换机中P4_16 编程语言使用table Match-Action机制来实现通用switch
2024-05-03 17:36:35
350
原创 论文分享:PowerTCP: Pushing the Performance Limits of Datacenter Networks
计算机网络顶会——NSDI 2022 的文章,关于拥塞控制算法的一篇论文;PowerTCP既考虑队列长度变化(文中比作电压)也考虑整个链路的RTT(文中比作电流)。
2023-07-28 22:11:15
1011
1
原创 主引导记录(MBR)、硬盘分区表(DPT)、扩展引导记录(EBR)
硬盘主引导记录MBR、扩展引导记录EBR、分区表DPT简介。GRUB在扩展分区启动os时存在的问题。
2023-04-24 15:06:56
2723
原创 C语言for循环内部局部变量的生存周期问题
C语言for循环内部局部变量的生存周期问题for循环内部局部变量的生存周期for循环内部变量的生存周期问
2022-12-29 22:45:57
1569
原创 mdadm: Cannot open /dev/xxx: Device or resource busy 解决方案
问题在创建RAID时执行如下commandmdadm -C /dev/md1 -l 0 -n 2 --chunk=64 /dev/nbd{0,1}报错:mdadm: cannot open /dev/nbd0: Device or resource busy原因主要有两点:1.该Device被某个进程占用,导致mdadm创建失败。2.该Device在本机已经被创建过RAID(被其他md设备占用),导致再用mdadm创建md时失败。解决方案1.查看有无进程在占用,命令:fus
2022-04-27 16:28:36
16565
原创 多级页表为什么能够减少进程对内存的占用?
引言操作系统中页表的作用是完成物理地址到逻辑地址的映射。在块大小为4K的32位系统中,逻辑地址的低12位为页内偏移,高20位为页索引。CPU通过查找页表将20位的页索引转换为数据块的物理地址(同样也是20位),然后与低12位的页内偏移拼接,形成最后的物理地址。操作系统中页表的分配单位为进程。也就是说每个进程都有自己的页表,每个进程在创建时os会为其分配页表,进程终止时会回收页表(内存资源),并非整个操作系统只有一个页表。单级页表存在的问题单级页表也就是用一个页表完成整个所有地址的转换。32位的系
2022-04-14 12:07:11
3829
原创 ssh终端登录后不自动执行 .bashrc
问题:用ssh登录终端后发现.bashrc里的脚本并没有被执行。解决方法1:先查看默认的shell是不是用的bash,若不是就需要更改为bash。查看:echo $SHELL若输出结果不是 /bin/bash (通常是/bin/sh),就需要更改为bash。更改命令:chsh输出如下:chsh Password:Changing the login shell forguojun Enter the newvalue, or press ENTER forthe defaultLo
2022-01-24 12:31:57
6418
1
原创 编译器实现向量化默认使用的是哪个指令集?
编译器实现向量化默认使用的是哪个指令集?令编译器使用指定的指令集向量化。令gcc使用指定的指令集向量化。编译器自动向量化。向量化
2021-12-04 21:51:57
1539
原创 warning: implicit declaration of function ‘aligned_alloc’的一种解决方案
warning: implicit declaration of function ‘aligned_alloc’的一种解决方案
2021-11-30 19:06:53
2511
原创 [笔记]对动态规划的简单理解
动态规划的基本思想个人理解:动态规划是一个先求解子问题然后逐步由子问题求解出最终问题的过程,其核心思想是“将子问题的求解结果保存”,当需要用到子问题的解时直接从读取子问题的解,而不是对子问题进行重复计算。动态规划并不是一种具体的算法而是一种设计方法或者说是策略。适用动态规划的问题的特征是具有重叠子问题。下面引用来自知乎的一个回答:quora上有这样一个问题:How should I explain dynamic programming to a 4-year-old?底下有个42K赞同的答
2021-06-04 19:29:00
275
原创 2021-01-17深入理解计算机操作系统笔记(第一章)
第一章1. 从.c程序到生成可执行文件的过程(1)预处理阶段:该阶段主要完成的是修改源程序。预编译器读取系统文件#include<>里面的内容并且直接插入到源程序文本中,得到的是另一个.c程序,通常以.i结尾。(2)编译阶段:编译器(ccl)将.i文本文件翻译为.s文本文件。将C程序翻译汇编程序。(3)汇编阶段:汇编器(as)将.s文件翻译为机器语言指令,把指令打包成可重定位目标程序,将结果保存在.o文件中。(.o文件此时已是二进制文件)(4)链接阶段:程序调用的库函数已经单独
2021-01-17 11:10:12
168
原创 深入理解计算机系统(CSAPP)
导言:学好计算机的必备书籍,阅读之前最好学过一些体系结构、组成原理、操作系统等专业课,阅读本书之后会对之前学的知识有更好的理解。资源评论区自取。免责声明:仅供学习使用,不得用于任何违法用途。因用作违法用途造成侵权责任,由使用者承担。...
2021-01-13 22:21:34
585
1
原创 [蓝桥杯][历届试题]蚂蚁感冒(模拟全过程)
在线测试连接**题目描述**长100厘米的细长直杆子上有n只蚂蚁。它们的头有的朝左,有的朝右。每只蚂蚁都只能沿着杆子向前爬,速度是1厘米/秒。当两只蚂蚁碰面时,它们会同时掉头往相反的方向爬行。这些蚂蚁中,有1只蚂蚁感冒了。并且在和其它蚂蚁碰面时,会把感冒传染给碰到的蚂蚁。请你计算,当所有蚂蚁都爬离杆子时,有多少只蚂蚁患上了感冒。输入第一行输入一个整数n (1 < n < 50), 表示蚂蚁的总数。接着的一行是n个用空格分开的整数 Xi (-100 &l
2020-10-13 21:11:57
168
原创 Java输出小数点后n位
Java输出小数点后n位(n为变量)Java控制小数点输出后几位的方法有很多,但是需要控制的输出位数为一个变量时仿佛都不太好使,比如输入一个n,要求将3.1415926这个浮点型输出保留小数点后n位,常用的System.out.printf(" %.f" ,3.1415926) 就没办法实现,因为n不是一个具体的值,"%.nf"或者"%.\nf" 都没办法实现。我对该问题的解决方案是利用Java对字符串处理的优势,解决该问题。具体代码如下:String format = "#.";for (int
2020-09-29 22:25:45
1245
原创 用C++库函数实现数的四舍五入、下取整、上取整
头文件:#include <cmath> 函数功能: double r = round (double x )//x四舍五入赋值给 r double f = floor (double x )//x下取整赋值给 f double c = ceil (double x )//x上取整赋值给 c
2020-06-17 21:35:23
515
原创 C++ 用cout输出数字正负号的方法
输出带正负号的数字可采用cout<<showpos<<x;例如:输出为特别要注意的是当有一次输出用到showpos后,下次输出默认的输出带符号的数,要想输出不带符号的数应 用到noshowpos详情请见 C++showpos...
2020-06-06 11:17:06
6877
原创 PTA 7-5 猜近似数字 (15分)(C++实现)
7-5 猜近似数字 (15分)PTA钻石争霸题Append code#include <iostream>#include <cstdio>#include <iomanip>#include <set>#include <algorithm>#include <string>#include <cmath>using namespace std;int main (){ string s1,s2;
2020-05-20 23:15:46
442
原创 PTA 练习题 7-1 jmu-Java-04面向对象进阶--02-接口-Comparator (25分)
Arrays.sort可以对所有实现Comparable的对象进行排序。但如果有多种排序需求,如有时候需对name进行降序排序,有时候只需要对年龄进行排序。使用Comparable无法满足这样的需求。可以编写不同的Comparator来满足多样的排序需求。1.编写PersonSortable2类属性:private name(String)、private age(int)有参构造函数:参数为name,agetoString方法:返回格式name-age2 编写Comparator类编写Name
2020-05-18 23:50:59
1469
原创 PTA 7-2 程序改错题2 (20分)
程序改错题。以下代码存在错误,请修改后提交。public class Main { public static void main(String[] args) { Animal animal = new Dog(); animal.shout(); animal.run(); }}class Animal { void shout() { System.out.println("animal shout!"); }}class Dog extends Animal {
2020-05-18 23:46:57
6336
原创 PTA练习题7-2 输出全排列 (20 分)递归法(C语言实现)
**7-2 输出全排列 (20 分)**请编写程序输出前n个正整数的全排列(n<10),并通过9个测试用例(即n从1到9)观察n逐步增大时程序的运行时间。输入格式:输入给出正整数n(<10)。输出格式:输出1到n的全排列。每种排列占一行,数字间无空格。排列的输出顺序为字典序,即序列a1,a2,⋯,an排在序列b1,b2,⋯,bn之前,如...
2019-10-06 20:23:07
7784
2
原创 7-1 整数分解为若干项之和(20 分)用递归求解(C语言实现)
7-1 整数分解为若干项之和 (20 分)将一个正整数N分解成几个正整数相加,可以有多种分解方法,例如7=6+1,7=5+2,7=5+1+1,…。编程求出正整数N的所有整数分解式子。输入格式:每个输入包含一个测试用例,即正整数N (0<N≤30)。输出格式:按递增顺序输出N的所有整数分解式子。递增顺序是指:对于两个分解序列N1={n1,n2,⋯}和N2={m...
2019-10-06 20:08:33
5957
5
MLNX-OFED-LINUX-4.1-1.0.2.0-rhel7.4-x86-64.tgz
2023-12-27
MLNX-OFED-LINUX-4.1-1.0.2.0-ubuntu14.04-x86-64
2023-12-27
MLNX-OFED-LINUX-4.0-2.0.0.1-ubuntu16.04-x86-64.tgzz OFED 4.1 驱动
2023-12-27
MLNX-OFED-LINUX-4.1-1.0.2.0-ubuntu16.04-x86-64.tgz OFED 4.1 驱动
2023-12-27
Duet Display windows版 version 1.9.2.7
2021-01-17
Intel VTune Amplifier XE 2016 update 2 for Linux
2020-12-08
cudnn-10.2-windows10-x64-v8.0.2.39(1).zip
2020-09-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人