- 博客(63)
- 收藏
- 关注
原创 详解tar.gz, tar.xz, tar, gz后缀文件的区别
详解tar.gz, tar.xz,tar, gz后缀文件的区别`tar.gz`、`tar.xz`、`tar` 和 `gz` 是常见的文件压缩与归档格式,它们的区别主要在于文件的归档和压缩方式。
2024-10-15 22:11:08
3556
原创 (已解决)vscode使用launch.json进行debug调试报错:Couldn‘t spawn debuggee:embedded null byte
(已解决)vscode使用launch.json进行debug调试报错:Couldn't spawn debuggee:embedded null byte
2024-10-15 21:49:10
799
原创 (附代码)psutil实时监控脚本运行过程中消耗的资源
如何避免使用top命令一直盯着屏幕,监控资源。在脚本中内置 资源监控代码,将实时资源变化记录到log文件,当脚本运行结束,监控也停止(附上代码)
2024-09-27 12:39:51
253
原创 初步了解SLAM
Simultaneous Localization and Mapping同时定位核建图。是一种在未知环境中,通过感知数据进行自主定位核地图构建的算法。多趟建图通过多次遍历和数据融合来提高地图的精度和详细程度,而重定位则是在已知地图中重新确定位置,以确保定位的准确性和连续性。
2024-09-10 20:19:16
430
原创 3d图像重建中psnr含义
PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)是衡量图像或视频质量的常用指标,主要用于评价原始图像与重建图像之间的相似程度。附上代码示例
2024-09-06 12:36:24
817
原创 vscode安装rest client插件,提示XHR failed
vscode安装rest client插件,提示XHR failed,已解决!
2024-09-02 21:59:45
290
原创 vscode+django开发后端快速测试接口(轻量版,免postman安装)
超级方便又好用的测试接口插件!!在vscode中只需要安装一个插件Rest Client即可完成接口测试,无需安装postman,vscode天生支持你发的HTTP请求,并给出响应。
2024-09-02 21:45:33
642
原创 conda环境迁移(20241015更新:新增conda环境中存在editable 包如何解决)
因为在服务器A上搭建好了conda虚拟环境,希望在服务器B上使用,重新再创建新环境,显然比较浪费时间,因此可以对服务器A已搭建环境打包迁移到服务器B上,解压后直接使用即可。
2024-08-31 20:50:53
778
原创 显存碎片化与CUDA OOM解决
在深度学习中,训练模型往往会遇到cuda Out of memory的问题,有时候是因为显存不足,显存碎片化原因导致的,这里记录一下显存内存分配的原理以及碎片化形成的原因和解决方法
2024-05-22 16:23:44
1684
原创 vscode ssh远程服务器并通过代码程序以及terminal启动GUI
vscode中配置X11 /Xserver使得在ssh远程连接服务器时,可以直接在vscode中通过代码程序,terminal端以及debug模式打开GUI界面
2024-04-13 16:58:44
698
原创 安装cuda后只在root用户下可见,非root不可见问题
记录在安装cuda后,利用nvcc -V查看版本信息时,只能在root用户下可以正确显示,但是在非root用户下无法访问到cuda问题的原因和解决方法。
2024-04-08 21:33:16
776
1
原创 ubuntu安装与卸载Nvidia驱动,anaconda,vscode,remote远程配置
记录在系统ubuntu中安装与卸载Nvidia驱动,安装anaconda, 安装vscode以及remote远程配置
2024-04-07 19:09:06
1115
原创 业界分布式训练框架学习笔记1
分布式训练框架的实现逻辑学习笔记1、Why?深度学习模型尺寸逐渐扩大,训练数据量显著上升。为了更好利用训练资源,提高效率。2、 分布式训练原理主要两种思路:一是模型并行,另一个是数据并行。(1) 模型并行即将一个模型分拆为多个小模型,分别放在不同设备上,每个设备可跑模型的一部分(例如,UNet网络就是将模型拆为两部分,分别在两块卡上训练)。存在的问题:模型在训练时需要更新梯度等,使得模型各部分之间关联性较大,因此这种方式效率较低,需要分散在不同设备之间的频繁通信,一般少用。(2) 数据并行
2022-05-10 18:33:01
674
原创 Linux--ubuntu命令积累
1. apt-key: 管理APT软件包的密钥常用参数:add filename 从文件中加载新的密钥到被信任的密钥中del kid 从被信任的密钥中删除指定密钥export keyed 将指定的密钥输出到标准输出设备exportall 将所有密钥输出到标准输出设备list 显示被信任密钥finger 显示被信任密钥的指纹adv 向pgp传递高级特性update 通过key包来更新key.
2022-04-21 15:00:08
281
原创 Goland 调试go使用-大白记录
前提环境检验:goland安装成功;go环境变量已配置,验证:cmd----输入go version可显示版本信息,如下:查看go 环境信息,通过命令go env实现,如下:主要关注下GOPATH至此,环境完成!Bug修复:git clone代码后,goland打开报错GoLand:Cannot resolve symbol以及sync dependencies ofxxx时也报错,但是运行官方示例代码就可以正常。后来发现是GOPATH设置问题,修改如下:
2022-04-21 14:57:21
4002
原创 Go语言实现对k8s中资源的增删改查
本文介绍利用go语言实现对k8s中pod/service/deployment资源的增删改查操作。(个人实际操作的记录,有错误欢迎指正呀~)K8s中有哪些资源?资源对象:deployment、service、ingress、replicaSet、pod、namespace、node等核心资源:pod service deploymentclient-go源码准备工作:已安装kubernetes集群和本地IDE环境配置完成。根据自己的kubernetes版本,下载对应源码:c
2022-04-21 14:56:40
1860
原创 docker中设置proxy代理环境变量
目录1.dockerfile中定义2.对于已构建好的 Image(1)传递永久环境变量(2) 临时传递3.对于已生成的容器:(1)永久设定环境变量(2)临时设定1.dockerfile中定义2.对于已构建好的 Image有两种方式:(1)传递永久环境变量在启动的时候传入参数:$ docker run --rm -it -e https_proxy="https://IP地址:端口" -e http_proxy="http://IP地址:端口" i
2022-04-15 10:37:43
4651
原创 Anaconda 迁移
step1: copy condadocker cp 本机conda虚拟环境路径 容器内虚拟环境路径查看虚拟环境路径:conda info -e例如:本机容器内:则,迁移命令为:docker cp /home/XXX/anaconda3/envs/py38torch18 容器IP:/opt/conda/envs/迁移完成后,进入容器,验证:conda info -e问题:1.遇到bash: /opt/conda/envs/py38torch18/
2022-04-15 10:22:45
2450
原创 Python系列学习汇总-持续记录
一、文件相关1. Pathlib模块,“/”含义1.ROOT_DIR = (Path(__file__).resolve().parent / '../../../').resolve()(1)Path(__file__).resolve()含义:Path是可以进行系统调用的 PurePath 子类;__file__表示表示显示文件当前的位置;.resolve()表示将路径或路径片段的序列解析为绝对路径;.parent()来自OpenPCDet系列中pcdet/datasets/
2022-04-14 09:45:59
816
原创 Client-go系列:其他-Go语言基础---持续更新记录
当标识符(包括常量、变量、类型、函数名、结构字段等等)以一个大写字母开头,如:Group1,那么使用这种形式的标识符的对象就可以被外部包的代码所使用(客户端程序需要先导入这个包),这被称为导出(像面向对象语言中的 public);标识符如果以小写字母开头,则对包外是不可见的,但是他们在整个包的内部是可见并且可用的(像面向对象语言中的 protected ) go run & go build: go run xx.go会直接执行代码,不生成其他文件 还可用go build xx.go生
2022-04-01 15:19:20
274
原创 VScode连接远程服务器以及在远程docker环境下debug调试代码
本文主要记录自己在windows环境下的vscode如何连接远程linux环境,以及如何连接远程服务器中的docker container,在容器中进行代码调试,开心debugo(* ̄▽ ̄*)ブ如何连接远程服务器?step1: 安装Remote-ssh插件,安装完成后左侧工具栏出现如下图左侧最后一个小图标step2:添加服务器连接配置信息,点击新增小电脑图标----点击SSH TARGETS处的“+”:然后输入远程服务器的地址,账号和ip根据自己的情况进行修改:回车后,.
2022-03-30 14:02:30
2297
原创 Linux下文件权限问题即chmod chown chgrp
写这篇文章的背景:之前用公共账号登录linux服务器,clone了一些代码,后来用自己账号登录,尽管将代码拷贝到自己账号下了,但发现没有权限修改!!于是查看了下文件及文件夹所有者以及所属组:先进入对应目录下ls -l显示结果:上述结果共有7列:第一列有10个字符,代表文件类型与权限 第一个字符表示文件类型:(d)表示目录,(-)表示文件,(l)表示链接文件等。 接下来9个字符以3个为一组,均为“rwx”的组合,分别表示可读,可写,可执行。 ......
2022-03-28 16:26:19
480
原创 kubernets创建Pod的三种方式
方法1. 通过yaml文件部署或创建pod[root@xxxxx]# vi test.yaml# 填入下面内容:apiVersion: v1kind: Podmetadata:name: web-applabels:role: approlespec:containers:- name: web-app-contimage: nginxports:- name: web-app-portcontainerPort: 80protocol: TCP在yaml中完善pod
2022-03-25 11:31:26
6608
翻译 Multi container pod多容器Pod
PodPod可以分为只包含一个容器的pod和包含多个容器的pod。Multi Container Pods为什么使用多容器pod?比如有一个application需要多个容器运行在相同Host上时,最好的选择就是多容器pod,尽管这会违反“One process per container” 规则,也不利于排查问题,但是利大于弊,例如团队内部可以重用更精细的容器。多容器pod的设计模式:(1)Sidecar Design Pattern假设容器有一个use-case,其中有一
2022-03-21 11:26:42
1578
原创 Deep Learning分布式训练2.2---Horovod in Docker
上一篇记录了单机多卡训练,就是在一台机器上使用多张卡训练模型(我的老板说这不算是分布式🤫)下面通过创建两个容器,模拟分布式训练,设计难点:(1)容器之间免密连接,就这个 了!!!!下面是实现步骤了:前提:有docker、nvidia-docker、horovod创建image,实现容器间免密登录(我这里直接使用DockerHub提供的horovod镜像作为基础镜像,在此基础上进行修改的,大家也可以使用源代码提供的Dockerfile,进行更改)下面是我运行的dockerf
2022-03-17 18:04:27
1626
原创 Deep Learning分布式训练2---Horovod in Docker
必备前提:1.安装docker2.安装nvidia-docker官网:Installation Guide — NVIDIA Cloud Native Technologies documentationubuntu系统:(按如下步骤一步步执行命令即可)(1)Setting up NVIDIA Container Toolkit¶Setup thestablerepository and the GPG key:$ distribution=$(. /etc/os-r...
2022-03-15 18:32:43
1965
原创 Docker常用命令积累--持续更新
创建容器完整步骤示例:dockerhub拉取镜像:Docker Hub官网1. 搜索(python)镜像:docker search python2.拉取镜像,eg.pythondocker pull 镜像名3. 查看镜像docker images ls4. 运行镜像:docker run -itd python:latest bash其中,-itd表示后台运行,python:latest为镜像及对应的版本-d参数指定容器的运行模式,加了-d参数默认不
2022-03-15 10:40:52
1702
原创 Kubernetes以及常用命令(使用汇总)--持续更新
查看版本信息 client为kubectl版本, server为master节点的k8s版本信息kubectl version -o json错误提示:The connection to the server localhost:8080 was refused - did you specify the right host or port解决:mkdir -p $HOME/.kubesudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/conf.
2022-03-14 16:18:49
612
原创 Deep Learning分布式训练1---Horovod with Pytorch
个人学习过程记录----------官网链接:Horovod with PyTorch — Horovod documentation实验背景:数据集的大小、模型的复杂度(存储和计算量),以及当下计算设备的硬件资源的利用,都影响着模型训练时间。同时为追求模型的最佳效果,模型复杂度也相当高。实验目的:利用Horovod实现Pytorch算法分布式训练。当前分布式深度学习方式:(1) 模型并行VS 数据并行(2)通信机制:网络拓扑(ParameterServer 和All
2022-03-14 15:01:22
2666
原创 pycharm 创建py文件总是为txt格式
记录:写代码过程中创建.py文件时,一直正常,但创建名称为train.py文件时总是为txt格式,即使选择了python file,也有了.py后缀。(看了教程说File-setting-F)解决:File-File Properties-Associate withFile Type然后可以看到train.py绑定了类型text,只需要上滑将text改为python即可。(类似文件类型的问题应该改法一致!!!)...
2022-01-08 15:38:38
1734
原创 神经网络训练零碎点记录
1. tensorboard localhost:6006打开报错,不显示内容:解决:terminal终端(runs为每次运行py文件时产生的日志文件目录)cd runs/tensorboard --logdir 文件名 --host=127.0.0.12. 将pycharm 的Runs窗口下的输出保存到某个文件中:terminal-->输入python xxx.py>out.txt其中xxx.py为需要运行的程序,out.txt就是你想要输出的文件名。3.。。。
2021-11-29 14:12:39
1075
原创 Win10 64环境下VScode C++配置 MinGW
Win10 环境下VScode C++配置VScode安装下载链接中途:这些可以勾选,便不需要手动配置环境变量pathVScode安装完成后,打开软件,安装C++插件:安装MinGW官方下载链接安装时根据自己电脑32还是64位对应选择与安装。记住安装的位置,后面要指定bin的路径,配置环境变量。bin目录下有很多这种文件:开始配置环境变量:右击我的电脑—属性—高级系统设置—环境变量----系统变量中找到PATH, 点击右上方NEW,将bin的路径加进去:完成后,打开运行
2021-09-09 10:58:33
358
1
原创 Preparing lessons: Improve knowledge distillation with Better supervision
问题:教师的logits进行训练可能出现incorrect和overly uncertain的监督解决: (1) Logits Adjustment(LA) (2) Dynamic Temperature Distillation(DTD)LA:针对错误判断的训练样本,交换GT标签和误判标签的logits值DTD:一些uncertain soft target是因为过高的温度值,因此可采用动态温度计算soft target,该温度在训练期间自适应更新----->...
2021-08-06 14:51:40
555
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人