Lethe♪-优快云博客

原创 torch-npu的安装

【代码】torch-npu的安装。

2024-04-14 09:59:18 9267

原创 COCO目标检测评测出现TypeError: ‘numpy.float64‘ object cannot be interpreted as an integer

【代码】COCO目标检测评测出现TypeError: ‘numpy.float64‘ object cannot be interpreted as an integer。

2024-04-12 19:05:11 302 1

原创 NPU float(“inf“) mask_fill 出现NAN

取一个较大的值替换即可；

2024-04-11 14:01:50 297

原创 NPU编译MultiScaleDeformableAttention

NPU对pytorch，想将检测模型在NPU上训练，存在编译MultiScaleDeformableAttention的需求。然而，原dino模型仅包含CPU版本和GPU版本：是不是就真的无法解决了呢？d。

2024-04-10 16:56:27 783 3

原创 Watchdog caught collective operation timeout: WorkNCCL...

进一步解决：重新多次transform，直到该数据的transform之后保持有label，问题解决。（即没有检测框的数据），损失计算有问题，从而导致了多卡训练在进行信息通信时卡死现象。，然而问题并没有解决。进一步排查发现，读取数据时是有标签的，经过了transform之后，边界框消失了！此前，也遇到过类似的问题，排查原因在于使用coco数据集做检测时，coco的训练集和验证集均。总结：核心原因是数据corrupted/incomplete，解决数据问题，即可解决该问题。为了解决该问题，仍然排查数据问题，

2024-04-10 09:57:50 2872

原创 pytorch的二次索引矩阵无法赋值问题

根据以上观测，在二次索引赋值时，需通过中间变量tp进行。最近在研究中发现torch一个问题，即。具体来说，给定相同的初始常数矩阵。矩阵，直接赋值是没问题的。

2023-12-08 11:09:30 379

原创分布式多卡训练模型时的nn.ModuleList踩坑记录

调用cuda()的操作不会报错，能够正常训练。但是，之后会发现，模型收敛速度变慢，精度降低。猜测根本原因在于，分布式训练时，梯度应该在各个显卡中独立计算。而cuda()操作会导致数据放在同一个显卡，从而导致梯度计算出现误差。如上，采用第一种方案的原因是需要多个参数，从而能够通过列表的index索引到正确的layer。隐藏的bug，调试了很久才发现该问题！

2023-12-08 10:44:12 270

原创服务器之间的conda环境迁移

有的时候python环境中可能包含了我们编译好的很多库文件，如果在别的服务器想直接使用环境就会比较困难些。而传统的迁移方法导出“*.yaml”环境配置的这种方法，实际是需要重新安装环境，对于这种安装好的环境是不起作用的。/minimiconda/bin/conda 文件中的 “path/to/miniconda3/bin/python”/minimiconda/bin/pip 文件中的 “path/to/miniconda3/bin/python”完成修改后，重新ssh登录，所有环境可用。

2023-11-29 10:27:52 597

原创 Linux系统休眠问题解决

近期，断电重启后的服务器总是莫名其妙断开连接，必须重启才能再次连上，但是一小段时间后，会再次断开。

2023-07-19 16:04:53 1735

原创 RuntimeError: Expected to mark a variable ready only once.

但，即使找到这个网络层，其实也比较难解决该问题。方法二一般可以解决该问题。

2023-07-10 11:31:49 2853 4

原创目标检测中，DETR方法为何class设置为91+1，DINO中为91

那我们就知道，coco在DETR和DINO中，有效的类别任然是从1~90，共80个具体类别（忽略断层ID）。所以，在DETR中，理论上只需要1~90 + 1=91个维度就够了，那为何是92呢？”(不使用“0”的原因应该只是为了矩阵的操作方便)，index 0不使用的情况下，91维进能够表示到ID 90, 故需要设置为91+1+92。coco2017共有80个子类别，由于该类别是原始数据的子集（原91类别，可参阅原文。然而，我们看到，在计算class loss时，多了一个维度，即。这是因为作者初始化的。

2023-05-31 18:06:56 1474 3

原创目标检测，将voc格式转化为coco格式详细过程

将VOC数据集转化为coco数据集

2023-05-19 10:26:00 908

原创 #include ＜Python.h＞ compilation terminated. error: command ‘x86_64-linux-gnu-gcc‘ failed

安装之后，发现再次运行编译的项目（比如：python setup.py install），不再报错。

2023-05-18 16:10:29 1444

原创 ModuleNotFoundError: No module named ‘Multiscaledeformableattention‘

这个库在网上没有找到，所以想原来的服务器上应该有，搜索之后找到了，然后放在了./envs/python39/lib/python3.9/site-packages对应的文件夹下，但是测试发现系统并没有去这个目录下找。思考是，在源服务器编译时，这个依赖库的路径写死了，写到了so中，还是无法解决问题。痛定思痛，决定看看没有root权限，来安装cuda，根据自己torch安装的版本，确定cuda版本，去官网下载run file，然后安装过程中，不选择驱动安装，设置自己的路径，进行安装。

2023-05-12 20:13:00 6093 2

原创 roi_width ＞= 0 && roi_height ＞= 0 INTERNAL ASSERT...ROIs in ROIAlign cannot have non-negative size!

很明显是计算ROI时，出现了负值, 需要重新安装mmcv。--》》》安装时间可能会比较久，耐心等待即可~~安装成功，最后测试发现问题已解决。

2023-04-20 10:04:34 438

原创 apex安装出错：TypeError unsupported operand type(s) for +: “NoneType“ and “str“

安装过程中出现问题：TypeError unsupported operand type(s) for +: "NoneType" and "str"

2023-04-16 19:20:31 1300

原创 Segment Anything工作研究总结三（Experiments and Others）

前述两篇介绍了 Segment Anything工作的Motivation and Data Engine and Dataset：以及介绍了Task and Model：

2023-04-14 16:03:57 92

原创 Segment Anything工作研究总结二（Segment Anything Task and Model）

上一篇介绍了Motivation and Data Engine and Dataset：本篇将介绍Task and Model:

2023-04-14 15:55:22 201

原创 Segment Anything工作研究总结一（Motivation and Data Engine and Dataset）

近期对Segment Anything工作进行了研究，该工作虽然偏向工程一些，但需要30人左右的团队合作，以及大量的GPU资源，才能够实现目前的效果，在CV领域应该是具有划时代的意义的。可预见的，未来在prompt segmentation, prompt detection， prompt xxx等方向，会有一系列研究工作被提出，推进视觉领域的发展。

2023-04-14 15:50:21 226

原创 AttributeError: ‘MMDistributedDataParallel‘ object has no attribute ‘_sync_params‘

在使用mmcv和mmSegmentation过程中，配置环境完成后，会遇到该问题。属性（attribute）错误应该是torch版本问题导致的，故查看当前软件版本：torch 1.12。在torch官网查看继承类的源码：torch/nn/parallel/distributed.py。查看程序出错的地方：mmcv/parallel/distributed.py。故修改该函数为以上（_sync_buffers）函数，问题解决。

2023-02-15 09:38:07 2714 2

原创 h5py写入numpy数据

h5py增量保存数据方法示意。

2022-11-04 12:13:30 656

原创 Win 10: vscode latex环境配置

Win 10: vscode latex环境配置

2022-08-26 12:08:12 776

原创【2022年博士招聘—鹏城联培】南方科技大学张建国教授团队2022年招聘计算机视觉、人工智能和医学图像处理方向博士

南方科技大学张建国教授团队2022年招聘计算机视觉、人工智能和医学图像处理方向博士张建国，2019年至今南方科技大学（国家双一流建设学校）计算机科学与工程系教授，博士生导师，曾任英国邓迪大学科学与工程学院计算机系担任reader和计算机系国际合作主任。他的主要研究方向为计算机视觉、医学图像及信息处理、机器学习、人工智能等。张建国老师主页：http://faculty.sustech.edu.cn/zhangjg/1.招收学术学位博士专业：鹏程实验室联培：智能制造与机器人（0801Z1）或者数学.

2022-04-13 09:05:05 830

原创南方科技大学张建国教授团队2022年招聘计算机视觉、人工智能和医学图像处理方向博士

南方科技大学张建国教授团队2022年招聘计算机视觉、人工智能和医学图像处理方向博士张建国，2019年至今南方科技大学（国家双一流建设学校）计算机科学与工程系教授，博士生导师，曾任英国邓迪大学科学与工程学院计算机系担任reader和计算机系国际合作主任。他的主要研究方向为计算机视觉、医学图像及信息处理、机器学习、人工智能等。张建国老师主页：http://faculty.sustech.edu.cn/zhangjg/1.招收学术学位博士专业：1）境外联培博士（香港城市大学、英国华威大学等） 2）鹏程实验.

2022-02-21 08:13:41 4662

原创基于D435i的点云重建

Task: 采用D435i采集深度图和RGB图像，进行点云重建和聚类。1）解析Bag数据：import osimport cv2import numpy as npimport rosbagfrom cv_bridge import CvBridgeimport sensor_msgs.point_cloud2 as pc2from sensor_msgs.msg import PointCloud2import pclfrom pcl import pcl_visualizat

2022-01-18 14:03:47 4849

原创 AprilTag: A robust and flflexible visual fifiducial system理解

近期需要对Apriltag方法进行理解，遂阅读了论文，并进行了coding和实验，具体如下：

2022-01-18 11:45:21 455 1

原创 python 直接读取深度图像、rgb图像、点云并可视化

以Intel的D435I相机为例，我们可以使用python代码，进行深度图像、RGB图像的读取和点云的可视化：import pyrealsense2 as rsimport numpy as npimport cv2import pclfrom pcl import pcl_visualizationcloud = pcl.PointCloud_PointXYZRGB()def visual(visual_viewer, pt,color): length = len(pt

2021-12-16 19:51:14 10995

原创 win10 python3 install rosbag & cv_bridge

最近需要做一些机器人相关的工作，需要用到rosbag和cv_bridge，对windows安装有一定问题，在此记录：rosbag：首先安装了anaconda，在anaconda的环境下（非自建的env环境，否则安装cv_bridge时会报错）：pip install --extra-index-url https://rospypi.github.io/simple/ rosbagpip install roslz4 --exa-index-url https://rospypi.gith

2021-12-16 11:01:48 4929 5

原创 python 多元tuple，如何快速转为np.array

对于单元素的tuple，是很好实现的：假如我们有多元tuple数据时（如下数据）：可选的，我们可以使用for 循环，对每一个元素进行处理。问题在于，当我们的数据量超大的时候，for循环就捉襟见肘了这里提供一种快速方法：...

2021-12-15 08:40:58 7560

原创 win10 install python-pcl

在windows上安装python-pcl会遇到各种问题，具体步骤如下：1.下载python-pcl src:https://github.com/strawlab/python-pcl 可以看到，这个代码库已经很久没有维护了，所以就会影响到我们安装的版本。（后续太高版本无法安装）2.下载Windows Gtk+并解压，将bin目录下的文件拷贝到上一个步骤解压的python-pcl-master文件夹下的pkg-config文件夹中。windows GTK+借用博客Win10下python-..

2021-12-14 10:16:25 434

原创 linux 批量解析*.tar文件

将以下代码保存为文件：for i in `ls *.tar`do mkdir ./${i%.tar} tar xvf $i -C ./${i%.tar} #echo ${i%.tar}done比如：tars.bash将此文件与待解压的*.tar放在同一文件夹内，cd至该目录，run:bash tars.bash自动完成解压...

2021-12-10 17:23:16 618

原创 AprilTag: A robust and flflexible visual fifiducial system 解析

Abstract本文提出了一个新的视觉基准系统，采用二维码标志，可以从图像中得到6自由度定位结果。我们所提出的鲁棒的数字系统，通过快速且鲁棒的线检测，能够对镜头的遮挡、扭曲和变形，有更鲁棒的结果。Introduction视觉基准系统提供的标签，与相机的相关位置和方向有关。视觉基准系统也可以用来进行运动捕捉。本文提出了一个新的视觉基准系统，能够显著提升精度，主要contribution：提出了一个鲁棒的视觉基准点检测方法。提出了一个基于图的图像分割方法，从而能够对点进行更加精准的估

2021-11-24 11:14:38 363

原创 RuntimeError: Default process group has not been initialized, please make sure to call init_process_

在使用mmSegmentation框架时遇到的问题： File "C:\software\Anaconda3\envs\python36\lib\site-packages\torch\distributed\distributed_c10d.py", line 347, in _get_default_group raise RuntimeError("Default process group has not been initialized, "RuntimeError: Defaul

2021-09-22 09:53:36 22486 16

原创 ASD: Average Surface Distance

ASD定义如下：在三维数据中，需要计算体素表面的距离，如果三维数据集合A有m个点，三维数据集和B有n个点，那么，计算A到B的距离，需要计算A中每一个点与B中每一个点的距离，算法复杂度m*n；这里推荐Deep Mind公布的计算方法：https://github.com/deepmind/surface-distance代码写的非常棒，理解起来有些麻烦，特记录如下：主要思想：通过对体素数据，体素点与体素点之间的距离进行编码，建立查找表，从而极大减小了运算量和算法复杂度，从而计算点与点之间的

2021-03-19 10:27:31 10848 1

原创 A review of deep learning in medical imaging: Image traits, technology trends, case studies with ...

Paper阅读记录：A review of deep learning in medical imaging:Image traits, technology trends, case studies with progress highlights, and future promises.Abstract本文强调了医学成像的临床需求和技术挑战，并描述了深度学习的新趋势如何解决这些问题。本文的topic包括：network architecture sparse and noisy ..

2021-01-11 20:09:21 1003 2

原创 vscode 连接远程一直提示输入密码问题解决

vscode 连接远端服务器经常出现一直提示输入密码，却无法登录的情况，原因可能是上次异常退出导致的。网上搜索了很多解决办法，都有或多或少的问题。最终解决办法如下：View->Commond Palette,在弹出框点击Remote-SSH: kill VS Code Server on Host...然后选择自己的服务器地址，根据提示输入密码，回车。之后再次登录即可。但有时首限于网络，登录时远端会下载相应的服务包，路径一般在：/root/.vscode-server/bi

2020-12-16 12:06:23 37892 36

原创 tensorboard 在docker服务器中开启服务，本地浏览器查看

如何在本地浏览器查看Docker服务器中的tensorboard记录文件呢？具体操作如下：1.在docker中打开tensorboard服务：tensorboard --logdir=/test/event --port=10010注意，此处的端口号为docker中开启的内部web服务端口，同时其有对应的外部端口号；2.在本地打开cmd，在cmd窗口中连接服务器：ssh -L 16006:127.0.0.1:10010 root@10.10.10.10 -p 35353此处，16

2020-11-16 18:57:02 3359

原创 Lung Lobe Segmentation

肺叶分割标签示意图：完整预览：

2020-10-19 19:40:09 446 1

原创 Openvino RuntimeError: get_shape was called on a descriptor::Tensor with dynamic shape问题解决

由于Openvino在2020 4月份，以及之前的版本中，对pytorch框架下的上采样操作，即F.interploate（或Upsample）的bilinear采样支持不是很好。具体而言，模型转化前和转化后，输出数据不一致程度高达99%。而这根本原因在于torch在转onnx模型时，采用op9 op10的转化方法，onnx模型与原torch模型的输出不一致（99%不一致）。而采用op11, op12才能保证，模型转化前后，精度一致，数据输出一致度高于99%。而之前的版本，openvino仅支持o.

2020-10-12 20:08:00 2039 5

原创 python opencv 通过Soket传输图像

最近需要将本地的实时视频图像传输到远端，故采用Soket TCP传输实现：服务端：importsocketdefrecv_size(sock,count):buf=b''#buf是一个byte类型whilecount:newbuf=sock.recv(count)ifnotnewbuf:returnNonebuf+=newbufc...

2020-07-02 19:31:20 1290

Frangi最初提出的Hessian矩阵血管增强，支持2D和3D数据，可直接运行

空空如也