
计算机硬件
文章平均质量分 56
雨浅听风吟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
3090和A100选型区别
如果都是小模型的化,日常yolo ssd那些没必要上计算卡,游戏卡完全够用了。如果是大模型dalle2 那些对抗生成网络有必要上计算卡。长时间运行A100用的是HBM2显存颗粒而3090ti是gddr6,运行半年后3090ti坏损比较严重,而A100基本无故障。HBM2的发热能力也比较低。原创 2022-10-27 16:58:12 · 15817 阅读 · 2 评论 -
linux安装google浏览器
首先打开谷歌官网https://www.google.cn/chrome/根据提示下载对应版本(base) roy@roy-System:~/Downloads$ sudo dpkg -i google-chrome-stable_current_amd64.deb原创 2022-02-14 16:17:27 · 1347 阅读 · 0 评论 -
cuda多gpu编程13
提速了5倍,因为cuda加速使用了异步非默认流solution已经完成效果正常的用一张卡答案makefile 文件CUDACXX=nvccCUDACXXFLAGS=-arch=sm_70 -O3CXXFLAGS=-march=native -fopenmpNSYS=nsys profileNSYSFLAGS=--stats=true --force-overwrite=trueall: mgpu_streammgpu_stream: mgpu_stream.cu ...原创 2021-08-21 16:37:38 · 410 阅读 · 0 评论 -
cuda多gpu编程12 在多个 GPU上实现数据复制与计算的重叠
原创 2021-08-21 16:21:27 · 479 阅读 · 1 评论 -
cuda多gpu编程11 多gpu进行运算
四块gpu相比一块也只快了一倍处理效果如下,全部使用了默认流,没有进行cuda加速没改之前#include <cstdint>#include <iostream>#include "helpers.cuh"#include "encryption.cuh"void encrypt_cpu(uint64_t * data, uint64_t num_entries, uint64_t num_iters, bool parall.原创 2021-08-21 15:36:33 · 1359 阅读 · 0 评论 -
cuda多gpu编程10 多gpu
原创 2021-08-21 14:55:13 · 581 阅读 · 1 评论 -
cuda多gpu c++加速9 应用数据复制与计算的重叠
MakefileCUDACXX=nvccCUDACXXFLAGS=-arch=sm_70 -O3CXXFLAGS=-march=native -fopenmpNSYS=nsys profileNSYSFLAGS=--stats=true --force-overwrite=trueall: streamsstreams: streams.cu $(CUDACXX) $(CUDACXXFLAGS) -Xcompiler="$(CXXFLAGS)" streams.cu -o stre...原创 2021-08-21 14:28:17 · 370 阅读 · 0 评论 -
MLPerf-inference-resnet50
文章目录1开始实验问题1问题2具体介绍参考关于MLPerf的一些调查MLPerf最初定位的时候并没有把自己限制在Training系统的评估上,而是希望MLPerf也能够覆盖Inference系统的评估。对于Training的评估,MLPerf已经提供了一个相对完备和公平的方法,软硬件厂商通过运行MLPerf的Training Benchmark测试集,比较将模型训练到特定精度时所花费的时间和成本。在MLPerf Training V0.5发布一年后,MLPerf发布了Inference V0.5版本,此原创 2021-02-25 10:29:20 · 3962 阅读 · 8 评论 -
1什么是TensorRT
转载tensorRT原创 2021-02-20 14:14:23 · 244 阅读 · 0 评论 -
3在python中使用TensorRT
转载TensorRT文章目录1说明2例子1说明2例子首先samples/python/end_to_end_tensorflow_mnist中有model.py文件,这个是通过keras来生成训练模型的,中间不设计tensorrtimport tensorflow as tfimport numpy as npdef process_dataset(): # Import the data (x_train, y_train),(x_test原创 2021-02-26 10:10:13 · 1764 阅读 · 0 评论 -
MLPerf-train训练评估-gnmt
文章目录准备测试参考Getting start with MLPerf Hands-on准备软件环境ubuntu 16.04CUDA10.2dockernvidia-docker2测试硬件特斯拉-v100测试首先下载别人的测试结果test@test-X11DPG-OT:~$ mkdir githubfiletest@test-X11DPG-OT:~$ cd githubfiletest@test-X11DPG-OT:~/githubfile$ git clone https:原创 2021-01-26 12:20:52 · 1140 阅读 · 0 评论 -
如何安装pybind11--在mlperf中应用成功
应用mlperf标准过程中用pip install pybind11conda install pybind11都会出现如下问题这里使用如下安装准备sudo apt-get install python3-dev sudo apt-get install cmakesudo pip install pytestsudo pip install numpysudo pip install scipysudo pip install pybind11然后从git原创 2021-02-23 14:10:08 · 891 阅读 · 0 评论 -
VisMoment摄像机使用指南
1硬件安装1.1本体安装1首先买回来摄像头有三个零件电池1 摄像机本体2 镜头31取掉罩子进行连接2镜头的前盖通过通过捏住盖子两个卡手进行打开镜头后盖和本体前盖拆卸完成后放置一起3镜头对准红点旋转安装。4电池卡住下方卡槽进行安装。安装前如果是调试后背板拨到i上1.2网络调试1安装完成后按主测边红点开机,(所有同步线和网络调试好后才能上电开机,之前刷ip用电池)2按menu进行调试,按系统菜单清除设置,重启后开机选简体中文,50hz,时区随便选一个,日期点ok3如果小屏原创 2021-07-08 15:25:08 · 1226 阅读 · 0 评论 -
mlperf Inference Benchmark -论文总结
文章目录1介绍2推理的挑战3 benchmark设计3.1代表性的具有广泛访问的工作负载3.2鲁棒性3.3 现实中的场景3.3.1Single-stream3 3.2Multistream3.3.3Server3.3.4offline3.4统计上可信的尾延迟界限目前有超过100家企业杂研发人工智能推理芯片,目前的系统有包括至少三种能效等级和5个等级的性能表现,从嵌入式设备到数据中心。推动硬件发展的是十几个或更多的软件框架和库。ML硬件和ML软件的无数组合使得对ML新性能表现中立可复现,系统化的评估充满困难原创 2021-02-20 11:10:17 · 3461 阅读 · 0 评论 -
2如何下载TensorRT
转载https://www.bilibili.com/video/BV1r7411n7gQ?p=2原创 2021-02-25 16:41:36 · 1848 阅读 · 0 评论 -
硬盘的协议和总线
转载硬盘的SATA M.2 NGFF NVME是什么意思,详解硬盘的总线协议与接口总线在电脑里不同设备之间交互的数据通路就是总线,总线也有一定的承载能力,不可能数据秒传协议sata机械和固态最多五百多兆每秒MSATAM2NGFF是M2的行业规范别名PCIESAS是一种强化版的SATA接口案例...转载 2020-12-06 23:23:56 · 1271 阅读 · 0 评论