咕噜船长-优快云博客

原创 2020 Android Studio安装教程

昨天（2020.2.18）安装了Android Studio，踩了一些坑，同时由于网上大部分教程的版本较老，因此整合网上现有的资源以及根据自己的安装结果，在此进行记录，以便于日后自己回首以及供大家参考：Android Studio版本：3.5.3下载地址：https://developer.android.google.cn/studio其实国内很多安装的问题，都是由于国内无法访问...

2020-02-19 10:57:21 20711 11

原创手把手实践-图像/视频语义分割 (Easy-VideoSegment)

在本项目中，使用了Segment and Tracking Anything论文中的算法和代码，通过我们提供的推理脚本，可以非常容易地对图像和视频中的内容进行语义分割。

2025-04-29 11:26:04 897

原创手把手实践-VQ-GAN推理+训练全流程 (Easy_VQGAN)

由于VQ-GAN出色的效果和经典设计，其单独的重建效果依旧可能会被应用到现有框架和方案中。本项目主要针对其重建效果（Reconstruction）进行推理和训练的流程梳理并提供可直接使用的训练、推理版本。

2025-04-18 16:35:46 503 5

原创 Linux安装detectron2库

Detectron2 是Facebook AI Research 开源的计算机视觉库，它是基于PyTorch 框架构建的。Detectron2 提供了一系列丰富的功能和灵活的组件，用于实现图像和视频中的目标检测、实例分割、关键点检测等任务。

2025-04-14 14:42:16 185

原创如何仅在conda中更新gcc版本

由于在使用deepspeed时产生报错：“DeepSpeedCPUAdam" object has no attribute "ds_opt_adam"，报错原因是gcc版本过低。因此需要对gcc版本进行升级。1. 利用conda安装新版gcc。3. 查看gcc 版本。

2025-03-17 09:19:32 288

原创使用DWPose提取姿态点——对应关节

使用DWPose提取人物姿态点时，会返回一个candidates列表，长度为18，分别记录18个人体的部位点坐标。

2025-03-14 21:22:09 362

原创 torch.load() don‘t know how to restore data location of torch.storage.UntypedStorage

使用torch.load(model_path)时报错如上。在后面加上map_location="cuda"

2025-01-17 09:45:59 176

在 PyTorch 中，可以通过 torch.cuda.max_memory_allocated() 和 torch.cuda.max_memory_cached() 等函数获取 GPU 内存的最大使用情况。具体来说，它会清除从上次调用此函数以来的所有 CUDA 内存统计信息，包括 GPU 上分配的内存、已释放的内存、内存碎片等。这个函数并不会释放正在使用中的内存或减少当前 PyTorch 程序中的内存占用，而是清理那些 PyTorch 内部缓存中暂时未使用的内存。

2025-01-16 16:35:05 330

原创初识具身智能

具身智能最早出现在图灵1950年的论文Computing Machinery and Intelligence中，论文中探讨了人工智能发展的两种路径：一条路是聚焦抽象计算（比如下棋）所需的智能，而另一条路则是为机器配备最好的传感器和执行器，使其可以与人类交流、向婴儿一样进行学习。这两条道路逐渐演变成了非具身和具身智能。例如“切菜”这一行为，只有智能体身临其境的感知切菜中的力阻尼和菜的状态变化，才能真正理解“切菜“的概念，只依靠观察人切菜的动作来预测行为标签，或许永远无法理解”切”的真正含义。

2024-12-31 15:27:16 189

原创 xxxPipeline.from_pretrained(model_path)加载自定义路径下的模型结构

例如：在diffusers库中有model_A.py，其中包含模型A_function()，为了改动模型A的结构，一般会把该模型移至本地，从本地加载；而且许多子模块都来自于各种python库，例如transformers或者diffusers，当我们在本地重写了相关模型的结构（即import本地文件中的函数，而不是库中的），并且进行微调后，xxx.Pipeline.from_pretrained并不会加载我们本地的模型结构，依旧是从库中调用。

2024-12-31 15:22:34 742

原创使用Qwen2-VL模型批量标注图像内容（图像理解）

图像存放文件夹：/home/user/data/images_need_processing，图像命名，从00000-05000.jpg，共5000张图像；该代码中，将所有图像的caption存入txt文件中，为了方便索引，使用图像名称+“#####”+描述的形式进行存储；Qwen2-VL模型可以以问答的形式得到图像的标注内容，以下记录流程以及数据的后处理过程。权重保存地址：/home/user/models/Qwen2-VL-7B-Instruct。

2024-12-24 17:25:26 978 2

原创 ACM投稿，Rebuttal无法去掉标题Title

注：如果修改/替换了文件后还是无法解决，应该是有其他的cls文件存在，另外单独开一个rebuttal project即可。问题：去掉\maketitle后，格式会变成单栏排版；只删除\title顶部则会有两行的留白；解决：注释掉acmart.cls文件中的2402、2428、2453、2541行；链接：https://pan.quark.cn/s/de4bbb539228。需求：去除title；

2024-06-18 09:31:09 236

原创利用matplot绘制折线图（详细版-有示例数据）

【代码】利用matplot绘制折线图（详细版-有示例数据）

2024-03-22 11:19:08 752 3

原创使用Python和PIL将RGB转换为三通道灰度图

将彩色图像转换为多通道的灰度图意味着保持图像数据的形状不变，但将每个像素的彩色表示转换为灰度值。通常灰度图像是单通道的，但如果想保持原图的三通道结构，可以用相同的灰度值填充每个通道。彩色图像通常以RGB（红、绿、蓝）格式存储，而将RGB转换为灰度值的一个常见方法是使用线性加权方法，这种方法考虑人眼对不同颜色的敏感度。灰度 = 0.2989 * R + 0.5870 * G + 0.1140 * B。使用这个公式，然后将计算出的灰度值复制到三个通道，以保持图像的多通道结构。

2024-03-22 10:09:51 1093

原创在torch包导入前import decord导致程序卡住

这两个包的导入顺序有要求，decord需要在torch后面，不然会导致程序卡住，无法运行。常用的视频解析包：decord。常用的深度学习包：torch。

2024-01-11 09:51:45 804 1

原创记录一个Nan bug

torch bug 实验记录

2022-10-29 15:38:30 556 1

原创将二维tensor矩阵中不为0元素转换为一维向量

将二维tensor矩阵中不为0元素转换为一维向量

2022-07-31 09:26:42 1851

原创 Crowd Counting-Test 获取density map及counting number

Crowd counting Test get density map and counting number.

2022-07-06 21:35:15 336

原创 Crowd Counting-计数模型测试Code

Crowd Counting 利用train好的model进行测试

2022-07-06 21:27:36 561

原创 Crowd Counting读取data及density map

Crowd Counting 加载数据集图像及标注

2022-07-06 21:18:54 382

原创【阿里网盘】深度学习与Pytorch视频教程

我在使用不限速「阿里云盘」，赠送你 500GB 快来试试吧 ------------点此链接领取福利：https://pages.aliyundrive.com/mobile-page/web/beinvited.html?code=82530df点上面这个链接注册阿里网盘（网速很快哦），可以直接得500G（我也可以得500G）之后私聊我分享《深度学习与Pytorch视频教程》全套...

2021-11-04 15:09:38 1143

原创批量重命名文件夹中的图像并调整大小

图像处理任务或者日常生活中常用的一个操作：对文件夹中的图像进行批量重命名，并调整文件夹中图像的大小：import osimport cv2def rename(): image_floder="./image_floder/" number = 0 files = os.listdir(image_floder) for file in files: print(image_floder+file+" Change to --> "+image_floder+str(num

2021-10-05 10:21:56 284

原创 LaTex中的绝对值符号

在使用LaTex时发现的一个问题，目标公式如下：其中需要用到绝对值，查了一下，大多数教程中对绝对值的表述为：\left| C_{2} \right|即：用\left和\right控制左右两侧的竖杠，但是编译器会报错：Missing delimiter (. inserted). \left| C_{2} \right|因此这样来使用绝对值：\lvert 和\rvert\lvert C_{2} \rvert...

2021-08-27 10:47:24 109442 9

原创对于两级目录下的文件进行重命名

2021-05-07 16:43:13 1144 3

原创根据图像的明亮度将图像进行分类

存在一个文件夹，其中放着若干图像，现在想对这些图像，根据其明亮程度进行分类，分为10类（0-9），将图像自动移动到对应的类别中；其中涉及：1）读取图像的Y-U-V值，其中Y值代表图像的亮度；2）python中的文件读写操作；3）使用shutil进行文件的移动；# 这部分的代码可以参考用于文件的移动；可以处理其他任务；以下是代码部分：import osimport sysimport cv2import shutildef getTheBright(path): """

2021-05-07 16:32:28 776

原创自己制作crowd counting数据集

Crowd counting的数据集包括两部分：图像部分和标签部分标签部分主要包括每个人头的坐标点：（x, y）；常见的标签格式例如：ShanghaiTech数据集中的格式，用mat文件存储每个人头的坐标点，一张图像对应一个mat文件；当我们自己制作数据集时，需要经历以下几个步骤：1）拍摄图像或者视频；视频需要切分成帧；2）在图像上进行标点，标点的同时会记录下坐标点；3）根据这些坐标点生成每张图像对应的.mat文件；4）在训练时，将mat文件中的坐标转换为density .

2021-05-06 18:16:16 2756 28

原创 crowd counting 常用数据集百度网盘

Crowd counting 常用数据集及下载地址：包括：ShanghaiTech 数据集UCF_CC_50 数据集World 10 数据集Mall 数据集USCD 数据集百度网盘下载地址：ShanghaiTech 数据集地址：链接：https://pan.baidu.com/s/1bDy-GgYi9C_R5hUuK6iZDg 提取码：c4pvUCF_CC_50 数据集地址：链接：https://pan.baidu.com/s/1Ehohkb9Q_wc..

2021-03-08 16:48:30 1771 8

原创 crowd counting——利用高斯核函数将坐标点转换为density map

在Crowd counting领域，常用的训练方法是estimate density map，这种数据可利用高斯核函数得来，在MCNN论文中有具体过程；也可参加这篇博客：https://blog.youkuaiyun.com/zxs0222/article/details/107900465存储density map的文件目前有两种：.h5文件和.cvs文件，而数据集中常见的是.mat文件，其中记录着所有人头的中心坐标点。利用.mat生成.h5的过程可参见这篇博客：https://blog.youkuaiyun.com

2021-03-08 16:39:55 1773 8

原创 Pytorch中的VGG模型

import torch.nn as nnimport torchfrom torch.nn import functional as Ffrom torchvision import modelsclass VGGModel(nn.Module): def __init__(self): super(VGGModel, self).__init__() self.VGG_feat = [64, 64, 'M', 128, 128, 'M', 256, 2.

2021-01-07 10:28:37 576

原创将文件夹中的图像根据明亮等级分类

需求：不同的图像有不同的明亮等级，现有文件夹a，要将a中的图像（若干张）根据图像的明亮等级分为0-10，且自动分配到不同的文件夹中；如下图所示，图1为过度黑暗场景，图2为明亮场景；主要工作：将RGB到YUV空间的变化，计算Y值，并将Y值归一化，根据得到的等级进行分类；文件目录：illumination_test_images文件夹：存放需要分类的图像；illumination-level.txt：用来存放每张图像的明亮等级；illumination-test.py：主要执

2020-12-22 14:12:53 460

原创论文阅读--Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions

先占个坑，正在研究；

2020-12-14 19:57:47 220 2

原创期刊模板-如何去除左下角的横线

如图：这个横线无法被选中，如何删去这个横线？这是因为页面中插入了脚注；解决方法：光标定位于横线下方的回车处，右击，“定位至脚注”，将脚注删除，即可。

2020-12-02 16:43:50 4455

原创 Latex 将（Figure : 或者Table : ）变为（Figure . 或者 Table .）

一、只将冒号变为dot：1、添加\usepackage{caption}2、在\begin{document}加一句：\captionsetup{labelformat=default,labelsep=period}参数控制：%space去掉点%period加点%不加space、period这两个就是冒号二、深度定制：例如可将Figure 变为 Fig 等：1、添加\usepackage{caption}2、在\begin{document}加：\captio.

2020-11-30 16:10:08 7638

原创 Crowding Counter 之根据ShanghaiTech中的.mat得到每张图片的gt人物数量

代码很简单，仅用于个人回忆以及学习：import scipy.io as iofor i in range(1, xxx): mat_road = "./GT_IMG_"+str(i)+".mat" mat = io.loadmat(mat_road) gt = mat["image_info"][0,0][0,0][0] print("The number of "+str(i)+" is: "+str(len(gt)))...

2020-11-21 17:48:58 366

原创期刊拒稿邮件分享

新鲜的拒稿通知——主题不符内容如下：Thank you for submitting your manuscript to xxx (期刊名). After careful evaluation, I regret to inform you that your manuscript does not fit within the scope of the journal, and I must therefore reject it. I hope you are successful in.

2020-11-17 11:16:31 8558 3

原创 CNN模型的尺寸、计算量和参数数量对比

CNN模型的尺寸、计算量和参数数量对比自从AlexNet一举夺得ILSVRC 2012 ImageNet图像分类竞赛的冠军后，卷积神经网络（CNN）的热潮便席卷了整个计算机视觉领域。CNN模型火速替代了传统人工设计（hand-crafted）特征和分类器，不仅提供了一种端到端的处理方法，还大幅度地刷新了各个图像竞赛任务的精度，更甚者超越了人眼的精度（LFW人脸识别任务）。CNN模型在不断逼近计算机视觉任务的精度极限的同时，其深度和尺寸也在成倍增长。图1 几种经典模型的尺寸，计算量和参数数量.

2020-11-17 10:46:27 4780

原创关于神经网络的轻量化

一、空洞卷积1、dilated的好处就是不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音文本需要较长的sequence信息依赖的问题中，都能很好的应用空洞卷积。1、2、Deep CNN对于其他任务的一些致命性缺陷，较为著名的是：up-sampling和pooling layer的设计，在Hinton的演讲中也提到过：1）上采样和池化层是不可学习的；2）内部数据接结构丢失；空间层级化信息丢失；二、ShuffleNet.

2020-11-17 10:06:29 2340

原创旷视科技 CVPR部分文章

CVPR 2018，旷视科技：主题包括：移动卷积网络ShuffleNet、语义分割判别特征网络DFN、优化解决人群密集遮挡问题的RepLose、通过角点定位和区域分割优化场景文本检测的场景文本检测器、可复原扭曲的文档图像等；场景文字检测：《Shape Robust Text Detection with Progressive Scale Expansion Network》全景分割：《An End-to-end Network for Panoptic Segmentation》

2020-10-15 16:27:43 338

原创 Crowding Counter 之可视化h5文件

在进行训练前，会根据.mat标注文件形成h5文件，在此对于h5文件进行可视化；代码比较简单，仅供学习~import numpy as npimport matplotlib.pyplot as pltfrom matplotlib import cm as CMimport h5pyf = h5py.File('IMG_77.h5', 'r')groundtruth = np.asarray(f['density'])plt.imshow(groundtruth,cmap=CM.je

2020-10-03 17:36:59 2803 1

原创 Crowding Counter 之根据.mat标注制作密度图进行训练

通常，corwding counter任务中数据集只有图像和对应的标注文件，标注文件中为每个人的坐标（一个人对应一个坐标）。如果需要采用density map进行训练的话，需要生成对应的density map。本代码用于将mat文件生成对应的density map；最终用.h5文件保存；import h5pyimport scipy.io as ioimport PIL.Image as Imageimport numpy as npimport osimport globfrom

2020-10-03 15:10:51 1180 4

VALSI 2020.rar

VALSI 2020 机器学习与深度学习青年研讨会； VALSI 2020 机器学习与深度学习青年研讨会； VALSI 2020 机器学习与深度学习青年研讨会；部分讲者ppt内容截图；

2020-11-17

cifar数据集包括其TfRecord格式文件

CIFAR-10 数据集的分类是机器学习中一个公开的基准测试问题，其任务是对一组32x32RGB的图像进行分类，这些图像涵盖了10个类别：飞机，汽车，鸟，猫，鹿，狗，青蛙，马，船以及卡车。该压缩文件中已经将数据集进行随机混乱排布操作，分散在六个子文件夹中，其中五个作为训练集，一个作为测试集；另外包括其制作而成的tfrecord文件，具体使用方法可参见博客；用于训练vgg、resnet等网络

2020-05-28

redis-windows

Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。从2010年3月15日起，Redis的开发工作由VMware主持。从2013年5月开始，Redis的开发由Pivotal赞助。

2018-12-03

mysql-8.0zip安装包

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS (Relational Database Management System，关系数据库管理系统) 应用软件。 MySQL是一种关系数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。 MySQL所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策，分为社区版和商业版，由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，一般中小型网站的开发都选择 MySQL 作为网站数据库。

2018-11-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人