- 博客(107)
- 资源 (4)
- 收藏
- 关注

原创 使用ppt和texlive生成eps图片(高清、可插入latex论文)
将PPT上绘制的图形转换为EPS(Encapsulated PostScript)图片在论文撰写过程中非常重要。以下是一些重要性的解释:提高图形的质量和清晰度:PPT中的图形通常以屏幕显示为目标。但在论文中,我们需要高质量、清晰的图形来确保读者能够准确地理解和分析。通过将PPT图形转换为EPS格式,可以保留图形的原始分辨率和细节,从而提高图形的质量和清晰度。保证图形的一致性:在PPT演示中,图形可能会因为多次编辑或在不同的幻灯片中使用而发生变化。
2023-09-04 14:36:47
4614
1

原创 linux命令、vi编辑器常用命令,shell激活虚拟环境,linux迁移conda环境,创建删除conda环境命令
赋予该文件夹下文件所有权限:chmod -R a=rwx test(文件夹)
2022-04-19 19:56:59
3552

原创 arcgis根据矢量范围裁取tif影像(栅格数据)、批量合并shp文件、根据矢量范围裁取区域内的矢量,输出地理坐标系、转换16位TIF影像的像素深度至8位、shp文件创建和矢量框标绘设置
选取研究区域,作图美观。这是最初的矢量文件,现在切割得到了云贵川地区的矢量文件,通过直接编辑最初的矢量文件。现在要从上图切出云贵川区域。打开对话框后输入影像和裁剪的区域,如果只需要裁剪的矢量区域,务必勾选红框。结果如下:如果不勾选,结果是一个包含目标区域的矩形,如下:还有一个矢量切割的地方:涉及到坐标系继承点红框选项。...
2021-03-21 22:54:36
25771
3
原创 MM-Grounding-DINO的训练推理(待更新)
继前面发布的GroundingDino 和 Open-GroundingDino的推理和Open-GroundingDino的训练实现,作为 GroundingDino延续性的文本检测网络 MM-Grounding-DINO 也发布了较详细的 训练和推理实现教程,而且操作性很强。作为学习内容,也打算整理一下 MM-Grounding-DINO 的推理和训练实现。
2024-04-12 15:30:21
1688
1
原创 结合文本的目标检测:Open-GroundingDino训练自己的数据集
是的第三方实现训练流程的代码,因为官方GroundingDino没有提供训练代码,只提供了demo推理代码。Open-GroundingDino的Github网址:要跑起来Open-GroundingDino,需要解决环境安装,数据集制作,网络配置等问题,下面大致从这几个方面进行介绍。
2024-04-12 15:07:06
7407
37
原创 Text-Driven Object Detection 关于结合文本的目标检测
首先说明,本文目的主要是水一篇优快云博客,顺便说一下和标题相关的认识。近几年,在目标检测领域关于多模态的目标检测工作已成了主流,趋势仍在延续,未来仍有很大挖掘空间。这里说的多模态不是简单的多源数据的多模态,比如不同形式的图像数据等,这里是文本和图像的数据,对标自然语言处理领域和计算机视觉领域。在看了一些结合文本的目标检测的工作后,主要是OVD方向的,总感觉这些网络有些复杂,或许是数据处理上,既需要文本标签,又要文本向量,还要一些特殊的预训练模型,在过程中稍显复杂。
2024-04-07 23:26:14
2469
原创 Open-GroundingDino和GroundingDino的推理流程实现
GroundingDino是一个多模态检测模型,可以输入文本提示输出视觉目标的位置,实现了文本和图像的匹配。相比较于一众的OVD算法,GroundingDino在文本处理上的灵活度高,因为大多OVD算法是采用clip文本编码器,这个编码器对文本的处理有限,只能是某些单词,一些特殊的名称在clip的预训练模型中没有对应的文本向量。而GroundingDino及部分采用 bert 的模型,可以处理单词、短语和句子等文本,在数据集迁移上更加友好。
2024-04-07 22:16:01
3733
3
原创 RegionCLIP网络结构解析 Region-based Language-Image Pretraining
主要是关注目标检测方面的工作,现在纯CV已经前景黯淡,即使前段时间的YOLOv9发布也是关注一般。现在大模型已成热点,而大模型要求的数据量和算力和算法复杂度,显然让很多人却步。但是具有大模型特点的多模态算法也算是研究的趋势,所以目前主要是关注多模态方面的目标检测工作。其中目标检测领域,目前和多模态相关的主要是 开集、开放词汇、描述性目标检测以及情景理解等。相关的研究工作已经越来越多,这里权当学习记录。RegionCLIP作为OVD检测算法,也是具有一定的代表性。
2024-04-03 20:44:06
1590
1
原创 CLIP网络结构解析 openai/CLIP (Contrastive Language-Image Pre-Training)
CLIP是openai公司提出的网络,可以处理文本和图像,是一个多模态网络,对多模态的研究具有一定的推动作用。作为学习,记录一下对CLIP的理解。
2024-04-03 11:09:59
2507
原创 关于mmcv和mmdet安装
open-mmlab的系列深度学习开源框架还是备受关注的,但是相关框架的安装也容易出现问题,导致在环境这一步就让人却步,我也在使用过程中碰到了很多问题。特别是随着框架的升级,硬件的升级等,使环境安装可以获取的选择变得更多,同时带来的问题也更多了。这里暂记一下安装mmdet和mmcv的方法,便于需要时参考。
2023-12-26 23:34:58
4526
原创 ERROR: Failed building wheel for mmpycocotools
【代码】ERROR: Failed building wheel for mmpycocotools。
2023-12-26 21:17:05
937
1
原创 Pillow库画图用法记录python
总而言之,Pillow和Matplotlib这两个库在python中画图是很实用的两个库,但各有侧重,matplotlib库对于画图功能更加强大,pillow库可用于画图,但更侧重图像处理。Matplotlib提供了多种绘图接口,包括命令式pyplot接口、面向对象的API接口、图形用户界面等,使得用户可以用较少的代码实现各种图表的绘制。②画线或面,里面可以加起始点坐标,线的颜色,宽度,坐标是像素坐标,图片左上角是原点。③加文本,文本字体,颜色,添加位置 等可设置,坐标信息是文本内容左上角起点。
2023-12-26 20:58:32
1155
原创 mmdet3d的编译bug:1 error detected in the compilation of ‘mmdet3d/ops/voxel/src/scatter_points_cuda.cu‘
生成linux下的so文件时,没有编译过,出现了报错,那么报错肯定是出现在这个文件的代码内。这样就可以了编译过了,如果还出现报错,可以看看是不是其他错了,这个错应该可以解决的。在cuda、torch版本装对的前提下,通过改代码是可以解决这个报错的。想了解该bug的更详细信息,可以参考个人解决在解决该问题时的网址。从报错信息可以知道,在编译。
2023-12-26 09:43:02
1073
1
原创 labelme标注的json文件数据转成coco数据集格式(可处理目标框和实例分割)
这里主要是搬运一下能找到的 labelme标注的json文件数据转成coco数据集格式(可处理目标框和实例分割)的代码,以供需要时参考和提供相关帮助。
2023-12-24 11:43:50
8431
1
原创 关于YOLOv5的训练,GPU单卡、多卡设置,加速训练
yolov5毫无疑问是目前目标检测框架中非常准确快速的检测框架之一,在工业界和学术界应用广泛,其优势不言而喻。在模型训练或推理时,我们都想快速完成,特别是数据量很大的时候,效率就是非常迫切需要提升的。这里简单介绍一下yolov5的多种训练方法,便于理解深度学习的模型训练方法,同时基于自身的硬件条件选择高效的训练方法。如果条件允许,首推的是多卡DDP训练模式。
2023-12-22 12:25:44
9443
3
原创 pip 离线安装:利用pypi网站进行模块 库的离线安装
点击 发布历史,进入可看到以往版本,可以根据python版本从里面去找匹配的版本。在检索框中输入你要安装的库,搜索,比如opencv,你搜。时,通过whl文件的下载安装,可以很高效的解决问题。的库,离线安装可以进入该网站找到你想要安装的库的。从搜索结果中找到opencv-python, 点击。离线安装是一种很好的方法,在。安装,如下是该网站首页。进行下载,再在命令行。进入可以看到 提供的。whl文件或压缩文件。
2023-12-21 22:44:52
711
原创 Ubuntu18.04、CUDA11.1安装TensorRT
最近想试试推理加速,因为跑的预测有点慢,一开始是打算从数据处理上实现,采用并行数据处理,但是这个有所难度,而且有几张显卡可用,就想着怎么把显卡利用上。而且了解到推理加速后,就先尝试一下看看效果,这里尝试的是tensorrt,暂记一下设置过程。首先是tensorrt的安装,有很多教程,但是版本不一定匹配,这里大家可以找到根据自己的软件版本进行安装的方法。
2023-12-21 22:21:41
2598
1
原创 使用ArcMap10.8修改tif影像的地理坐标系
最近有个tif数据转坐标系给我整岔了,用了定义投影的方法,坐标系是有了,可是范围区域数值没有改变,导致转出来的数据没法用,后面成功了,记一下方法便于今后查找。对比可以发现,转了坐标系后,tif数据的范围也发生了变化,至此完成了栅格数据的坐标系转换。③对话框 输入你要转坐标系的tif 数据, 然后找一个路径存放你转出来的tif数据,的方法,但是并不奏效,可能这是用于shp等矢量数据的。,选定你要转出的坐标系,此处是GCS_WGS_1984。如下是我在arcmap中打开的tif影像坐标系,是。
2023-12-18 19:51:46
12641
2
原创 ImportError:~/mmcv/_ext.cpython-38-x86_64-linux-gnu.so: undefined symbol:_ZNK5torch3jit14StringCordV
需要根据使用的torch版本huocuda版本进行匹配,或者在版本兼容范围内进行版本更换,测试出可用的版本搭配。近期碰到了这个bug,没有非常明确的解决途径,但是可以提供有效的解决思路。我在处理这个bug时,基于上述思路,最终成功解决问题。这个bug是说mmcv下的一个so文件无法导入,而。那么要正确安装mmcv,需要考虑的方面主要是和。,而mmcv的安装需要进行编译,所以说。,所以要解决这个问题就很明确了。,导致这个bug出现了。mmcv的安装有问题。
2023-12-15 17:46:47
2006
原创 使用blip2进行图片输入文本输出
期间碰到了transformer的问题,从transformer库导入有问题,我降低了版本,我目前的版本是。多模态的重要模型blip2,官方提供模型可以直接用来图片生成文本。把上面页面中的所有文件下载下来,放到blip2的工作空间中。或者根据个人需求改成批量化生成文本的代码也可以。一般是下载上面这个模型,也有其他的可以下载,期间如果提示缺什么库,按要求装上就可以了。然后就可以跑官方提供的demo了。
2023-12-15 17:12:11
4022
7
原创 含掩膜mask的单通道灰度图转化为COCO数据集格式标签的json文件(python)
上述代码仍然存在不足,有的mask太小segmentation输出是 [],这需要检查一下,我在里面输出的位置判断是空就不保存可以避免这种问题,但是bbox等信息有的会出现Nah的情况,需要自己判断处理。还有一点,有些内部mask比较极端的情况,代码执行容易出错,建议把问题图像删除,或者自己查找问题修改代码。目标:把灰度图中的语义mask转换为COCO数据集格式的json文件。输入:单通道的灰度图,灰度图内含掩膜mask。输出:COCO数据集格式的json文件。整体上来说,这个代码还是挺好用的。
2023-12-04 09:57:32
1436
4
原创 含mask的单通道灰度图内容可视化python
方法很简单,就是读取灰度图,根据掌握的像素值信息,分别赋予不同的颜色值像素进行保存输出。输入:单通道的灰度图,灰度图内含不同像素值的掩膜mask。输出:灰度图内的掩膜mask在RGB图像中输出。
2023-12-04 09:44:24
780
原创 COCO格式标签(json)内容可视化(python)
有json文件和图像文件,可以直接输入执行,输出会把bbox、mask等类型标注展示。主要是查到的可用代码,便于自己使用查询,和有相关需求的提供参考。–ann-file coco标签文件,–disp-all 显示所所有类别标签。代码是MMYOLO下的可视化代码。–img-dir 图片文件夹。
2023-12-04 09:30:28
1333
原创 Windows编译yolov5_obb的nms_rotated模块报错解决
这个说的是代码信息无法识别不兼容,考虑到代码编辑格式,Linux代码可能用LF格式,Windows需要CRLF格式,找到报错的cu文件,把格式改为windows可识别的crlf格式,这去掉了一些报错。这个可能是cuda装了好几个,删除不要用来编译的版本,去掉删除版本的环境变量。并把 const float eps = 1e-8;注释了,应该可以直接换掉。就是一个eps未定义,找了点办法,总算去掉了。
2023-11-09 13:33:02
1162
1
原创 RuntimeError: Error(s) in loading state_dict for Model: size mismatch for model.24.m.0.weight....
但是,这处的问题并不好改,如果也是使用yolov5_rotated代码训练,建议对照yolov5的训练代码,可以发现这个rotated框架在优化器部分的代码写的不完善,而且预训练判断部分的代码也有问题,即使成功训练起来,epoch数量也不是从0,1开始,所以主要还是框架考虑不够完善。查找了一些办法,基本上是关于 loading_state_dict()的用法,如何去处理加载的权重,开始直接定位到了ckpt[‘model’]的这几层的权重,强行将几层的权重维度匹配到model中,但是训练时仍然没有解决问题。
2023-11-07 15:44:30
2566
原创 windows解决:OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.
①有说把conda环境 anaconda/Library/bin 下自带的 libiomp5md.dll 文件删除,我直接去了我的conda环境下,发现该位置并没有 libiomp5md.dll 文件。②我的办法,去我创建的虚拟环境下 anaconda/envs/env_name/Library/bin 的 libiomp5md.dll 文件删除,再跑代码就没问题了。
2023-11-03 23:14:32
1908
3
原创 Detectron2训练自己数据集及解决bug:KeyError: Dataset ‘m‘ is not registered! Available datasets are...
Detectron2是一个用的比较广泛的目标检测和分割的深度学习框架,最近在电脑上配置环境后就准备跑一下,发现上手没那么方便,官方教程也不清晰,还得自己摸索,所以暂记一下个人成功训练的方法以及遇见的bug解决。要看bug解决,直接跳到文末。
2023-10-31 20:16:40
2225
2
原创 解决bug:‘PIL.Image‘ has no attribute ‘ANTIALIAS‘ 和‘FreeTypeFont‘ object has no attribute ‘getsize‘
ANTIALIAS在 Pillow 10.0.0 中被删除(在许多以前的版本中被弃用后)。现在您需要使用PIL.Image.LANCZOS或PIL.Image.Resampling.LANCZOS。(这与所引用的算法完全相同ANTIALIAS,只是您无法再通过名称访问它ANTIALIAS。这个bug和第一个bug一样都是因为pillow库版本太新出现的问题,最快的方法也是降低版本,或者找到引用的地方进行修改,这个略麻烦。
2023-10-30 10:32:50
9483
1
原创 解决Linux挂载问题mount.cifs command not found
【代码】解决Linux挂载问题mount.cifs command not found。
2023-10-30 09:23:00
2025
原创 Linux解决nvcc -V出现的-bash: nvcc command not found问题
直接把export 的命令在命令行里执行,再执行source,会自动把内容写入bashrc文件里,这个可以验证一下。vim 和 source 的操作不变。
2023-10-30 09:09:03
8716
1
原创 Miniconda、Vscode下载和conda源、pip源设置
修改 .condarc文件,windows一般在C盘用户文件夹下,如下是个人常用的源。设置conda源,先执行如下命令生成 .condarc文件。
2023-10-26 21:43:59
2098
1
原创 python把ChestX-Det-Dataset的json样本转为COCO数据集的json格式
先跑训练集或先跑验证集会生成category_mapping 的字典内容,生成后统一用同一个,就可以保证训练集和验证集的标签一致。
2023-10-26 01:23:17
211
原创 InternImage的DCNv3编译
有点玄学,我从其他地方迁移过来的和之前同样的conda环境,迁移出来的可以编译DCNv3,之前的却编译不了,我迁移的conda环境都是mmdetection可用的环境,编译了mmcv的,迁移出来的环境不同mmcv版本都可以编译DCNv3。我的环境存在的不同就是两台机器的显卡不同,一个是xp的,一个rtx3080,其他都是一样的,有点离谱。有类似情况的可以试试我的可用版本。
2023-10-23 16:35:57
1264
1
原创 使用Dockerfile生成docker镜像和容器的方法记录
Docker 是一个开源的容器化平台,其中的主要概念是容器和镜像。容器是 Docker 的运行实例。它是一个独立并可执行的软件包,包含了应用程序及其依赖的所有组件(如代码、运行时环境、系统工具、库文件等)。容器可以在不同的环境中运行,具有隔离性和可移植性,不会受到底层系统或其他容器的影响。镜像是一个只读的模板,用于创建容器。它包含了一个完整的文件系统,其中包含应用程序和所有的依赖项。镜像可以被复制和分享,用于在不同的环境中创建多个相同的容器实例。
2023-10-22 18:16:56
795
原创 高效MMdetection(3.1.0)环境安装和训练自己数据集教程(实现于Linux(ubuntu),可在windows尝试)
很久没用mmdetection了,作为目标检测常见的几个深度学习框架,mmdetection用的人还是很多的,其中比较吸引人的一点就是mmdetection集成了非常多的算法,对于想做实验对比和算法学习的人来说,基于这个框架可以事半功倍。因为外面提出的各种各样的算法依赖的环境会有所不同,数据集的格式也有区别,我们单独去跑这一个个算法实际上是很费劲的,所以mmdetection的出现直接把这些算法集成到一个统一的平台,对于大家系统性的学习非常便利。很常规的操作,不熟悉的需要时间理解摸索一下,
2023-10-22 16:01:24
1472
原创 shapely库的用法,高效处理点、线、面的几何关系和相关延申(GeoPandas 库)python
它提供了一套丰富的函数和方法,用于读取、写入、操作和分析地理空间数据,包括点、线、多边形等几何对象。以上是一些常用的多边形处理方法,你可以根据具体需求使用 Shapely 提供的函数和方法来处理你的多边形数据。以上仅是 GeoPandas 库的一些基础用法示例,该库还提供了更多强大的功能,如地理空间分析、数据合并、投影转换等。: Shapely 是一个优秀的 Python 库,用于进行几何对象的创建、操作和分析。以上仅是 Shapely 库的一些基础用法示例,该库还提供了丰富的几何操作和分析功能。
2023-08-08 09:39:33
7085
2
原创 WGS_1984_UTM、WGS_1984_Mercator坐标转化为经纬度坐标python
要获取 WGS_1984_UTM 坐标系的遥感数据的左上角和右下角坐标,你可以使用 GDAL 和 Proj 库来获取遥感数据的元信息和进行坐标转换。上述代码会打开遥感影像文件,并使用 GDAL 和 Proj 库获取其地理转换信息、坐标系信息,创建坐标转换对象,并进行坐标转换以获取左上角和右下角在 WGS_1984_UTM 坐标系下的经纬度坐标。然后,它检查投影坐标系是否是投影坐标系,如果是,则通过查找坐标系名称中的关键字(如’UTM’和’Mercator’)来确定具体的投影坐标系类型。
2023-08-07 23:42:11
4743
原创 YOLOv5(v7.0)网络修改实践三:把单分支anchor-based、head改为yolov8的anchor-free、双分支解耦合head(yolox的DecoupleHead)
很有意义的工作,实现之后发现自己的理解又加深了,对代码也更熟悉了!共勉!
2023-07-25 21:30:05
2662
21
集成YOLOX的backbone(CSPDarknet和Pafpn)到yolov5(v7.0)框架中
2023-07-17
pytorchDCGAN教程使用的img_align_celeba.zip数据集,包含部分图片
2022-03-31
pytorch对抗示例生成教程使用的 MNIST 预训练模型
2022-03-31
CIFAR10 数据集,具有以下类别:“飞机”,“汽车”,“鸟”,“猫”,“鹿”,“狗”,“青蛙”,“马”,“船”,“卡车”。
2022-03-31
如何提升大图的预测推理效率
2023-12-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人