清梦枕星河~-优快云博客

原创使用ppt和texlive生成eps图片（高清、可插入latex论文）

将PPT上绘制的图形转换为EPS（Encapsulated PostScript）图片在论文撰写过程中非常重要。以下是一些重要性的解释：提高图形的质量和清晰度：PPT中的图形通常以屏幕显示为目标。但在论文中，我们需要高质量、清晰的图形来确保读者能够准确地理解和分析。通过将PPT图形转换为EPS格式，可以保留图形的原始分辨率和细节，从而提高图形的质量和清晰度。保证图形的一致性：在PPT演示中，图形可能会因为多次编辑或在不同的幻灯片中使用而发生变化。

2023-09-04 14:36:47 4614 1

原创 linux命令、vi编辑器常用命令,shell激活虚拟环境，linux迁移conda环境，创建删除conda环境命令

赋予该文件夹下文件所有权限：chmod -R a=rwx test(文件夹)

2022-04-19 19:56:59 3552

原创 arcgis根据矢量范围裁取tif影像（栅格数据）、批量合并shp文件、根据矢量范围裁取区域内的矢量,输出地理坐标系、转换16位TIF影像的像素深度至8位、shp文件创建和矢量框标绘设置

选取研究区域，作图美观。这是最初的矢量文件，现在切割得到了云贵川地区的矢量文件，通过直接编辑最初的矢量文件。现在要从上图切出云贵川区域。打开对话框后输入影像和裁剪的区域，如果只需要裁剪的矢量区域，务必勾选红框。结果如下：如果不勾选，结果是一个包含目标区域的矩形，如下：还有一个矢量切割的地方：涉及到坐标系继承点红框选项。...

2021-03-21 22:54:36 25771 3

原创 MM-Grounding-DINO的训练推理（待更新）

继前面发布的GroundingDino 和 Open-GroundingDino的推理和Open-GroundingDino的训练实现，作为 GroundingDino延续性的文本检测网络 MM-Grounding-DINO 也发布了较详细的训练和推理实现教程，而且操作性很强。作为学习内容，也打算整理一下 MM-Grounding-DINO 的推理和训练实现。

2024-04-12 15:30:21 1688 1

原创结合文本的目标检测：Open-GroundingDino训练自己的数据集

是的第三方实现训练流程的代码，因为官方GroundingDino没有提供训练代码，只提供了demo推理代码。Open-GroundingDino的Github网址:要跑起来Open-GroundingDino，需要解决环境安装，数据集制作，网络配置等问题，下面大致从这几个方面进行介绍。

2024-04-12 15:07:06 7407 37

原创 Text-Driven Object Detection 关于结合文本的目标检测

首先说明，本文目的主要是水一篇优快云博客，顺便说一下和标题相关的认识。近几年，在目标检测领域关于多模态的目标检测工作已成了主流，趋势仍在延续，未来仍有很大挖掘空间。这里说的多模态不是简单的多源数据的多模态，比如不同形式的图像数据等，这里是文本和图像的数据，对标自然语言处理领域和计算机视觉领域。在看了一些结合文本的目标检测的工作后，主要是OVD方向的，总感觉这些网络有些复杂，或许是数据处理上，既需要文本标签，又要文本向量，还要一些特殊的预训练模型，在过程中稍显复杂。

2024-04-07 23:26:14 2469

原创 Open-GroundingDino和GroundingDino的推理流程实现

GroundingDino是一个多模态检测模型，可以输入文本提示输出视觉目标的位置，实现了文本和图像的匹配。相比较于一众的OVD算法，GroundingDino在文本处理上的灵活度高，因为大多OVD算法是采用clip文本编码器，这个编码器对文本的处理有限，只能是某些单词，一些特殊的名称在clip的预训练模型中没有对应的文本向量。而GroundingDino及部分采用 bert 的模型，可以处理单词、短语和句子等文本，在数据集迁移上更加友好。

2024-04-07 22:16:01 3733 3

原创 RegionCLIP网络结构解析 Region-based Language-Image Pretraining

主要是关注目标检测方面的工作，现在纯CV已经前景黯淡，即使前段时间的YOLOv9发布也是关注一般。现在大模型已成热点，而大模型要求的数据量和算力和算法复杂度，显然让很多人却步。但是具有大模型特点的多模态算法也算是研究的趋势，所以目前主要是关注多模态方面的目标检测工作。其中目标检测领域，目前和多模态相关的主要是开集、开放词汇、描述性目标检测以及情景理解等。相关的研究工作已经越来越多，这里权当学习记录。RegionCLIP作为OVD检测算法，也是具有一定的代表性。

2024-04-03 20:44:06 1590 1

原创 CLIP网络结构解析 openai/CLIP (Contrastive Language-Image Pre-Training)

CLIP是openai公司提出的网络，可以处理文本和图像，是一个多模态网络，对多模态的研究具有一定的推动作用。作为学习，记录一下对CLIP的理解。

2024-04-03 11:09:59 2507

原创 2024新年快乐

新年快乐～2024一切顺利～

2023-12-31 23:51:33 495

原创 opencv和gdal的读写图片波段顺序问题

最近处理遥感影像总是不时听到图片的波段错了，一开始不明就里，都是图片怎么就判断错了。

2023-12-27 18:14:09 1077 1

原创关于mmcv和mmdet安装

open-mmlab的系列深度学习开源框架还是备受关注的，但是相关框架的安装也容易出现问题，导致在环境这一步就让人却步，我也在使用过程中碰到了很多问题。特别是随着框架的升级，硬件的升级等，使环境安装可以获取的选择变得更多，同时带来的问题也更多了。这里暂记一下安装mmdet和mmcv的方法，便于需要时参考。

2023-12-26 23:34:58 4526

原创 ERROR: Failed building wheel for mmpycocotools

【代码】ERROR: Failed building wheel for mmpycocotools。

2023-12-26 21:17:05 937 1

原创 Pillow库画图用法记录python

总而言之，Pillow和Matplotlib这两个库在python中画图是很实用的两个库，但各有侧重，matplotlib库对于画图功能更加强大，pillow库可用于画图，但更侧重图像处理。Matplotlib提供了多种绘图接口，包括命令式pyplot接口、面向对象的API接口、图形用户界面等，使得用户可以用较少的代码实现各种图表的绘制。②画线或面，里面可以加起始点坐标，线的颜色，宽度，坐标是像素坐标，图片左上角是原点。③加文本，文本字体，颜色，添加位置等可设置，坐标信息是文本内容左上角起点。

2023-12-26 20:58:32 1155

原创 mmdet3d的编译bug：1 error detected in the compilation of ‘mmdet3d/ops/voxel/src/scatter_points_cuda.cu‘

生成linux下的so文件时，没有编译过，出现了报错，那么报错肯定是出现在这个文件的代码内。这样就可以了编译过了，如果还出现报错，可以看看是不是其他错了，这个错应该可以解决的。在cuda、torch版本装对的前提下，通过改代码是可以解决这个报错的。想了解该bug的更详细信息，可以参考个人解决在解决该问题时的网址。从报错信息可以知道，在编译。

2023-12-26 09:43:02 1073 1

原创 labelme标注的json文件数据转成coco数据集格式（可处理目标框和实例分割）

这里主要是搬运一下能找到的 labelme标注的json文件数据转成coco数据集格式（可处理目标框和实例分割）的代码，以供需要时参考和提供相关帮助。

2023-12-24 11:43:50 8431 1

原创关于YOLOv5的训练，GPU单卡、多卡设置，加速训练

yolov5毫无疑问是目前目标检测框架中非常准确快速的检测框架之一，在工业界和学术界应用广泛，其优势不言而喻。在模型训练或推理时，我们都想快速完成，特别是数据量很大的时候，效率就是非常迫切需要提升的。这里简单介绍一下yolov5的多种训练方法，便于理解深度学习的模型训练方法，同时基于自身的硬件条件选择高效的训练方法。如果条件允许，首推的是多卡DDP训练模式。

2023-12-22 12:25:44 9443 3

原创 pip 离线安装：利用pypi网站进行模块库的离线安装

点击发布历史，进入可看到以往版本，可以根据python版本从里面去找匹配的版本。在检索框中输入你要安装的库，搜索，比如opencv，你搜。时，通过whl文件的下载安装，可以很高效的解决问题。的库，离线安装可以进入该网站找到你想要安装的库的。从搜索结果中找到opencv-python，点击。离线安装是一种很好的方法，在。安装，如下是该网站首页。进行下载，再在命令行。进入可以看到提供的。whl文件或压缩文件。

2023-12-21 22:44:52 711

原创 Ubuntu18.04、CUDA11.1安装TensorRT

最近想试试推理加速，因为跑的预测有点慢，一开始是打算从数据处理上实现，采用并行数据处理，但是这个有所难度，而且有几张显卡可用，就想着怎么把显卡利用上。而且了解到推理加速后，就先尝试一下看看效果，这里尝试的是tensorrt，暂记一下设置过程。首先是tensorrt的安装，有很多教程，但是版本不一定匹配，这里大家可以找到根据自己的软件版本进行安装的方法。

2023-12-21 22:21:41 2598 1

原创使用ArcMap10.8修改tif影像的地理坐标系

最近有个tif数据转坐标系给我整岔了，用了定义投影的方法，坐标系是有了，可是范围区域数值没有改变，导致转出来的数据没法用，后面成功了，记一下方法便于今后查找。对比可以发现，转了坐标系后，tif数据的范围也发生了变化，至此完成了栅格数据的坐标系转换。③对话框输入你要转坐标系的tif 数据，然后找一个路径存放你转出来的tif数据，的方法，但是并不奏效，可能这是用于shp等矢量数据的。，选定你要转出的坐标系，此处是GCS_WGS_1984。如下是我在arcmap中打开的tif影像坐标系，是。

2023-12-18 19:51:46 12641 2

原创 ImportError:~/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol:_ZNK5torch3jit14StringCordV

需要根据使用的torch版本huocuda版本进行匹配，或者在版本兼容范围内进行版本更换，测试出可用的版本搭配。近期碰到了这个bug，没有非常明确的解决途径，但是可以提供有效的解决思路。我在处理这个bug时，基于上述思路，最终成功解决问题。这个bug是说mmcv下的一个so文件无法导入，而。那么要正确安装mmcv，需要考虑的方面主要是和。，而mmcv的安装需要进行编译，所以说。，所以要解决这个问题就很明确了。，导致这个bug出现了。mmcv的安装有问题。

2023-12-15 17:46:47 2006

原创使用blip2进行图片输入文本输出

期间碰到了transformer的问题，从transformer库导入有问题，我降低了版本，我目前的版本是。多模态的重要模型blip2,官方提供模型可以直接用来图片生成文本。把上面页面中的所有文件下载下来，放到blip2的工作空间中。或者根据个人需求改成批量化生成文本的代码也可以。一般是下载上面这个模型，也有其他的可以下载，期间如果提示缺什么库，按要求装上就可以了。然后就可以跑官方提供的demo了。

2023-12-15 17:12:11 4022 7

原创含掩膜mask的单通道灰度图转化为COCO数据集格式标签的json文件（python）

上述代码仍然存在不足，有的mask太小segmentation输出是 []，这需要检查一下，我在里面输出的位置判断是空就不保存可以避免这种问题，但是bbox等信息有的会出现Nah的情况，需要自己判断处理。还有一点，有些内部mask比较极端的情况，代码执行容易出错，建议把问题图像删除，或者自己查找问题修改代码。目标：把灰度图中的语义mask转换为COCO数据集格式的json文件。输入：单通道的灰度图，灰度图内含掩膜mask。输出：COCO数据集格式的json文件。整体上来说，这个代码还是挺好用的。

2023-12-04 09:57:32 1436 4

原创含mask的单通道灰度图内容可视化python

方法很简单，就是读取灰度图，根据掌握的像素值信息，分别赋予不同的颜色值像素进行保存输出。输入：单通道的灰度图，灰度图内含不同像素值的掩膜mask。输出：灰度图内的掩膜mask在RGB图像中输出。

2023-12-04 09:44:24 780

原创 COCO格式标签（json）内容可视化（python）

有json文件和图像文件，可以直接输入执行，输出会把bbox、mask等类型标注展示。主要是查到的可用代码，便于自己使用查询，和有相关需求的提供参考。–ann-file coco标签文件，–disp-all 显示所所有类别标签。代码是MMYOLO下的可视化代码。–img-dir 图片文件夹。

2023-12-04 09:30:28 1333

原创 Windows编译yolov5_obb的nms_rotated模块报错解决

这个说的是代码信息无法识别不兼容，考虑到代码编辑格式，Linux代码可能用LF格式，Windows需要CRLF格式，找到报错的cu文件，把格式改为windows可识别的crlf格式，这去掉了一些报错。这个可能是cuda装了好几个，删除不要用来编译的版本，去掉删除版本的环境变量。并把 const float eps = 1e-8;注释了，应该可以直接换掉。就是一个eps未定义，找了点办法，总算去掉了。

2023-11-09 13:33:02 1162 1

原创 RuntimeError: Error(s) in loading state_dict for Model: size mismatch for model.24.m.0.weight....

但是，这处的问题并不好改，如果也是使用yolov5_rotated代码训练，建议对照yolov5的训练代码，可以发现这个rotated框架在优化器部分的代码写的不完善，而且预训练判断部分的代码也有问题，即使成功训练起来，epoch数量也不是从0，1开始，所以主要还是框架考虑不够完善。查找了一些办法，基本上是关于 loading_state_dict()的用法，如何去处理加载的权重，开始直接定位到了ckpt[‘model’]的这几层的权重，强行将几层的权重维度匹配到model中，但是训练时仍然没有解决问题。

2023-11-07 15:44:30 2566

原创 windows解决:OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.

①有说把conda环境 anaconda/Library/bin 下自带的 libiomp5md.dll 文件删除，我直接去了我的conda环境下，发现该位置并没有 libiomp5md.dll 文件。②我的办法，去我创建的虚拟环境下 anaconda/envs/env_name/Library/bin 的 libiomp5md.dll 文件删除，再跑代码就没问题了。

2023-11-03 23:14:32 1908 3

原创 Detectron2训练自己数据集及解决bug:KeyError: Dataset ‘m‘ is not registered! Available datasets are...

Detectron2是一个用的比较广泛的目标检测和分割的深度学习框架，最近在电脑上配置环境后就准备跑一下，发现上手没那么方便，官方教程也不清晰，还得自己摸索，所以暂记一下个人成功训练的方法以及遇见的bug解决。要看bug解决，直接跳到文末。

2023-10-31 20:16:40 2225 2

原创解决bug：‘PIL.Image‘ has no attribute ‘ANTIALIAS‘ 和‘FreeTypeFont‘ object has no attribute ‘getsize‘

ANTIALIAS在 Pillow 10.0.0 中被删除（在许多以前的版本中被弃用后）。现在您需要使用PIL.Image.LANCZOS或PIL.Image.Resampling.LANCZOS。（这与所引用的算法完全相同ANTIALIAS，只是您无法再通过名称访问它ANTIALIAS。这个bug和第一个bug一样都是因为pillow库版本太新出现的问题，最快的方法也是降低版本，或者找到引用的地方进行修改，这个略麻烦。

2023-10-30 10:32:50 9483 1

原创解决Linux挂载问题mount.cifs command not found

【代码】解决Linux挂载问题mount.cifs command not found。

2023-10-30 09:23:00 2025

原创 Linux解决nvcc -V出现的-bash: nvcc command not found问题

直接把export 的命令在命令行里执行，再执行source，会自动把内容写入bashrc文件里，这个可以验证一下。vim 和 source 的操作不变。

2023-10-30 09:09:03 8716 1

原创 Miniconda、Vscode下载和conda源、pip源设置

修改 .condarc文件，windows一般在C盘用户文件夹下，如下是个人常用的源。设置conda源，先执行如下命令生成 .condarc文件。

2023-10-26 21:43:59 2098 1

原创 python把ChestX-Det-Dataset的json样本转为COCO数据集的json格式

先跑训练集或先跑验证集会生成category_mapping 的字典内容，生成后统一用同一个，就可以保证训练集和验证集的标签一致。

2023-10-26 01:23:17 211

原创 InternImage的DCNv3编译

有点玄学，我从其他地方迁移过来的和之前同样的conda环境，迁移出来的可以编译DCNv3，之前的却编译不了，我迁移的conda环境都是mmdetection可用的环境，编译了mmcv的，迁移出来的环境不同mmcv版本都可以编译DCNv3。我的环境存在的不同就是两台机器的显卡不同，一个是xp的，一个rtx3080，其他都是一样的，有点离谱。有类似情况的可以试试我的可用版本。

2023-10-23 16:35:57 1264 1

原创使用Dockerfile生成docker镜像和容器的方法记录

Docker 是一个开源的容器化平台，其中的主要概念是容器和镜像。容器是 Docker 的运行实例。它是一个独立并可执行的软件包，包含了应用程序及其依赖的所有组件（如代码、运行时环境、系统工具、库文件等）。容器可以在不同的环境中运行，具有隔离性和可移植性，不会受到底层系统或其他容器的影响。镜像是一个只读的模板，用于创建容器。它包含了一个完整的文件系统，其中包含应用程序和所有的依赖项。镜像可以被复制和分享，用于在不同的环境中创建多个相同的容器实例。

2023-10-22 18:16:56 795

原创高效MMdetection(3.1.0)环境安装和训练自己数据集教程(实现于Linux(ubuntu)，可在windows尝试)

很久没用mmdetection了，作为目标检测常见的几个深度学习框架，mmdetection用的人还是很多的，其中比较吸引人的一点就是mmdetection集成了非常多的算法，对于想做实验对比和算法学习的人来说，基于这个框架可以事半功倍。因为外面提出的各种各样的算法依赖的环境会有所不同，数据集的格式也有区别，我们单独去跑这一个个算法实际上是很费劲的，所以mmdetection的出现直接把这些算法集成到一个统一的平台，对于大家系统性的学习非常便利。很常规的操作，不熟悉的需要时间理解摸索一下，

2023-10-22 16:01:24 1472

原创 shapely库的用法，高效处理点、线、面的几何关系和相关延申（GeoPandas 库）python

它提供了一套丰富的函数和方法，用于读取、写入、操作和分析地理空间数据，包括点、线、多边形等几何对象。以上是一些常用的多边形处理方法，你可以根据具体需求使用 Shapely 提供的函数和方法来处理你的多边形数据。以上仅是 GeoPandas 库的一些基础用法示例，该库还提供了更多强大的功能，如地理空间分析、数据合并、投影转换等。: Shapely 是一个优秀的 Python 库，用于进行几何对象的创建、操作和分析。以上仅是 Shapely 库的一些基础用法示例，该库还提供了丰富的几何操作和分析功能。

2023-08-08 09:39:33 7085 2

原创 WGS_1984_UTM、WGS_1984_Mercator坐标转化为经纬度坐标python

要获取 WGS_1984_UTM 坐标系的遥感数据的左上角和右下角坐标，你可以使用 GDAL 和 Proj 库来获取遥感数据的元信息和进行坐标转换。上述代码会打开遥感影像文件，并使用 GDAL 和 Proj 库获取其地理转换信息、坐标系信息，创建坐标转换对象，并进行坐标转换以获取左上角和右下角在 WGS_1984_UTM 坐标系下的经纬度坐标。然后，它检查投影坐标系是否是投影坐标系，如果是，则通过查找坐标系名称中的关键字（如’UTM’和’Mercator’）来确定具体的投影坐标系类型。

2023-08-07 23:42:11 4743

原创 YOLOv5(v7.0)网络修改实践三：把单分支anchor-based、head改为yolov8的anchor-free、双分支解耦合head（yolox的DecoupleHead）

很有意义的工作，实现之后发现自己的理解又加深了，对代码也更熟悉了！共勉！

2023-07-25 21:30:05 2662 21

集成YOLOX的backbone（CSPDarknet和Pafpn）到yolov5（v7.0）框架中

把YOLOX的backbone按照yolov5的格式进行复现，包含了修改的主要代码，模块重写，参数对应。修改的内容详细，并提供了yolox的backbone 代码用于验证，直接跑就行，目前已成功验证了该任务的正确性

2023-07-17

pytorchDCGAN教程使用的img_align_celeba.zip数据集，包含部分图片

我们将使用 Celeb-A Faces 数据集，该数据集可在链接的站点或 Google 云端硬盘中下载。数据集将下载为名为img_align_celeba.zip的文件。下载完成后，创建一个名为celeba的目录，并将 zip 文件解压缩到该目录中。然后，将此笔记本的dataroot 输入设置为刚创建的celeba目录 /path/to/celeba -> img_align_celeba -> 188242.jpg -> 173822.jpg -> 284702.jpg -> 537394.jpg

2022-03-31

pytorch对抗示例生成教程使用的 MNIST 预训练模型

pretrained_model-使用pytorch/examples/mnist训练的 MNIST 模型的路径。为简单起见，请在此处下载预训练模型。

2022-03-31

CIFAR10 数据集，具有以下类别：“飞机”，“汽车”，“鸟”，“猫”，“鹿”，“狗”，“青蛙”，“马”，“船”，“卡车”。

专门针对视觉，我们创建了一个名为torchvision的包，其中包含用于常见数据集（例如 Imagenet，CIFAR10，MNIST 等）的数据加载器，以及用于图像（即torchvision.datasets和torch.utils.data.DataLoader）的数据转换器。在本教程中，我们将使用 CIFAR10 数据集。它具有以下类别：“飞机”，“汽车”，“鸟”，“猫”，“鹿”，“狗”，“青蛙”，“马”，“船”，“卡车”。 CIFAR-10 中的图像尺寸为3x32x32，即尺寸为32x32像素的 3 通道彩色图像。 classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

2022-03-31

mosaic_utils.py

2021-09-07

如何提升大图的预测推理效率

2023-12-21

TA创建的收藏夹 TA关注的收藏夹

TA关注的人