自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(405)
  • 资源 (6)
  • 收藏
  • 关注

原创 【论文分享】Deep Multiple Instance Learning for Image Classification and Auto-Annotation(CVPR 2015)

2025-04-03 13:45:02 80

原创 自注意力与交叉注意力的PyTorch 简单实现

注意力机制允许模型在处理输入序列时自动聚焦于最相关的部分,从而增强建模能力。以 Transformer 为例,它通过注意力机制建立了序列中不同位置之间的信息关联。模块Query 来自Key/Value 来自典型应用当前输入当前输入BERT、GPT、自注意图像建模当前输入外部上下文编解码结构、跨模态、条件生成。

2025-04-02 13:47:58 247

原创 【论文分享】时空/视频预测学习经典论文SimVP和SimVPv2(附PPT)

2025-03-29 23:49:26 105

原创 基于 UltraEval-Audio 的语音大模型评估——自定义数据集和评估实操

是一个很好用的语音大模型评估工具。官网给的自定义数据集和评估的教程有点简单,这里我进行了实践,并发布了一个详细的版本。评估任务的配置文件构建好了,接下来就需要分别写数据集,提示词,模型,后处理方式,评估器以及聚合器的配置了,所有配置均为。中已经定义好了一些做语音识别评估任务的配置,这里我又新建了一个名为。到底为止,评估任务都构建好了,接下来我们开始构建评估要用的数据集。这里我想做一个自动语音识别的评估任务。字段是标准答案,用来计算指标。内置的有语音识别,即。指定了音频文件的路径,,那我就直接拿来用了。

2025-03-23 17:32:38 340

原创 【通义千问】Qwen-Audio-Chat 语音大模型离线使用指南(亲测可用)

本文介绍基于的语音大模型离线使用指南(

2025-03-11 17:50:17 570

原创 人脸分割SOTA——基于FaRL(Face-CLIP)的一键面部解析推理接口分享

FaRL标题如上,虽然是22年的工作,但仍是CelebAMask-HQ数据集上的SOTA(如下图)。FaRL是一个类似CLIP的文本-图像匹配模型,可以理解为Face领域的CLIP。可以广泛应用于人脸图像处理的一些下游任务,例如面部解析,面部对齐,面部属性识别等。本文分享其在面部解析,也就是人脸语义分割的下游任务上的模型推理接口,有需要的同学可一键调用。

2024-12-19 05:28:56 492

原创 【AAAI 2025】人脸分割最新工作——SegFace一键推理接口分享

话不多说,直接看演示。今天分享了的是AAAI 2025一篇名为SegFace论文的面部解析(人脸语义分割)模型的推理接口。把模型和数据预处理部分从代码仓库里面剥离出来了。需要自取。

2024-12-19 02:59:56 1252

原创 【论文阅读】IC-Light(ICLR 2025 满分论文)

今天分享ControlNet(ICCV 2023 最佳论文奖)作者的新做IC-Light。这篇论文目前投稿至 ICLR 2025,已经获得了四位审稿人一致的满分(10分)的打分。

2024-12-14 18:06:41 2579 1

原创 【Linux】使用Bash和GNU Parallel并行解压缩文件

在本教程中,我们将学习如何使用Bash脚本和GNU Parallel实现高效并行解压缩多个文件。这种方法在处理大量文件时可以显著加快提取过程。

2023-12-10 02:51:45 1797

原创 【Python】解决 pip 开了网络代理之后无法安装包的问题

然而,配置清华源之后,pip 安装的时候就是从清华的镜像仓库来抓取安装包,但是清华的网络会对一些境外的网络代理做屏蔽或过滤,因此导致开了代理之后,pip 就无法安装包了。既然 pip 镜像源(无论还是清华,亦或是阿里)对代理服务器进行了屏蔽,那么我们访问镜像源的时候就不要走代理网络了。临时方案就很简单了,直接把代理关了就行了。但你要安装很多包的话,就很麻烦,得反复的开关代理,推荐下面的永久解决方案。即在代理服务器设置里面,请勿对以下条目开头的地址使用代理服务器,以清华源为例,就是添加。

2023-08-17 14:14:01 17791 13

原创 【ChatGPT+Python】Landsat卫星图像黑边去云及旋转校正

Landsat的遥感影像四个角有黑色区域,这是正常的。但是如果你真的想去掉黑色区域的话,你可以使用重分类,把黑色的区域变成白色,这样和背景就一致了,在发布服务的时候设为白色透明就可以了。旋转正了的话,它的投影信息和位置信息就不正确了,如果感觉不好看,可以直接剪裁出来正方形,或者把相邻的影像进行拼接,然后再剪裁。Prompt: 现有一RGB彩色图像,图像内仅有一个旋转的矩形物体,其周围的像素值全是0,要求裁剪出其中的矩形物体,并将其旋转校正,注意矩形物体的边界也可能有值为0的像素,输出结果保存为彩色图像。

2023-06-08 23:42:40 4225 2

原创 【论文阅读】TDANet:一种具有自上而下注意力的用于语音分离的高效自编码器架构(ICLR 2023)

问题描述:现有语音分离模型无法兼顾效率和性能。解决方案:本文基于脑启发,提出了一个能够模拟大脑自上而下注意力的高效自编码器架构用于语音分离任务。具体地,它利用全局注意力(GA)模块和级联的局部注意力(LA)模块来获得一个自上而下的注意力表示。实验结果:在三个基准数据集上进行了实验,与之前的 SOTA 模型 Sepformer 相比,TDANet 实现了一致性的具有竞争力的性能,并且效率极高。

2023-02-10 00:34:04 3123 2

原创 【PyTorch】模型 FPS 测试 Benchmark(参考 MMDetection 实现)

深度学习中,模型的速度和性能具有同等重要的地位,因为这直接关系到模型是否能在实际生产应用中落地。在计算机视觉领域,FPS(模型每秒能够处理的图像帧数)是一个重要且直观地反映模型处理速度的指标,基本在所有图像处理类任务中都有用到,例如图像超分,图像修复和目标检测等等。本文从 MMDetection 中抽取了 FPS Benchmark,并做了微小的修改,以便快速测试。

2022-12-07 15:41:42 7450 4

原创 【Vscode】隐藏的端口转发功能,大多数人都不知道怎么用

Python 编程中有两款 IDE 深受广大开发者的喜爱,一是微软出品的 Vscode,以小巧、轻量、插件丰富而闻名,另一款则是大名鼎鼎的专为 Python 编程而打造的 Pycharm。我们通过 Vscode 远程连接服务器后,如果需要查看服务器上的 HTML 文件,则需要先 Download 到本地,然后在本地通过网页浏览器查看。其它一些基于 Web 的深度学习训练可视化工具,例如 tensorboard,visdom 等都可以进行同样的操作,在本地浏览器即可实时看到远程服务器的训练结果。

2022-11-02 23:42:23 9820 1

原创 解决上网认证系统 IP 更改后 Ubuntu 等 Linux 系统无法上网的问题

docker 网段冲突解决方案

2022-10-28 15:45:39 2668 2

原创 【Windows】文件资源管理预览 Markdown、Word、Excel、PDF、SVG 等各种文件(PowerToys)

Windows 自带有文件预览功能,支持一些例如 Word、Excel、Power Point 等办公文件,以及其它常用文件例如图片、视频、文本文档的预览。使用预览功能可以不用打开就能查看文件信息,能大幅提高工作效率。当然,我们可能还有更多格式的文件预览需求,比如 Markdown、SVG 图片、各种语言编写的代码文件等。预览功能支持多种格式的文件预览,包括有 Word、Excel、Power Point、Visio、图片、视频、PDF等。可以提供这些文件的预览支持。打开文件资源管理器,

2022-09-22 10:46:51 6299 2

原创 【Python】获取或修改 Windows 系统中文件的创建时间、修改时间和访问时间(os | win32file)

os.utime 只能更改文件的修改时间和访问时间,而不能更改文件的创建时间。因此,我们这里统一使用 win32file 模块来修改文件的上述三个时间属性。本文介绍如何利用 Python 编程获取或修改这三个属性。然后,鼠标右击查看其时间属性。重新查看时间属性,发现已修改。通过如下代码获取其时间属性。通过如下代码修改其时间属性。首先,创建一个测试文件。

2022-09-18 23:37:07 4811 3

原创 【Python】旋转矩阵与旋转向量的相互转换(OpenCV)

因为任意旋转矩阵仅有 3 个自由度,因此旋转向量是旋转矩阵的一个方便和最紧凑的表示。在全局 3D 几何优化中常用到旋转矩阵和旋转向量的相互转换,例如相机标定、PnP 问题的求解等。本文介绍基于 OpenCV-Python 的互转换实现方法。函数即可实现旋转矩阵与旋转向量的相互转换。通过 OpenCV 提供的。

2022-09-12 21:55:30 6522

原创 多目视频跟踪问题中的物体表示方法探究

如何表示物体是跟踪算法需要考虑的首要问题。跟踪问题中物体的定义是宽泛的,它可以是任何在后续分析和处理的过程中我们可能感兴趣的内容。因而根据物体形状和实际需求的不同,不同物体甚至同一类物体在跟踪问题中都可能有着不同的表达方式。下图以人体为例展示了物体表达的一些具体形式:采用何种物体表示方法取决于观测模型的定义或者前端物体定位技术的选择,例如物体检测对应的是基于区域的物体跟踪,人体姿态估计对应的是基于点表示的物体跟踪。目前主流的物体跟踪算法多采用这两种物体表示方法。值得注意的是,对于多目视频中的跟踪问题我们通常

2022-09-07 15:48:17 1875

原创 手工笔筒制作教程(附彩色贴图分享)

这里也提供一下笔者制作的彩色贴图,可以直接以 A4 格式打印。(这是笔者直接用 Windows 自带的 3D 画图工具制作的,懂 Python 编程的同学也可以先下载几张贴图素材,然后借助 Pillow 库随机的在画板上添加,形成各式各样丰富种类的贴纸)今天给大家带来手工笔筒的制作教程,并分享一张笔者制作的彩色贴图。手工制作一个简易的笔筒,一张卡纸即可,简单又实用一起来试试吧。

2022-09-06 21:07:20 1730

原创 去噪扩散概率模型(DDPM)的简单理解

扩散模型最近在图像生成领域取得了巨大的成功,类似 OpenAI 的DALL-E 2,Google 的Imagen,以及 Stability AI 最近发行的能够达到商业级绘画目的的等,都是基于扩散模型来进行图像生成的。本文对知乎上各位大佬对于扩散模型(特别是 DDPM)的讲解进行了融合,带领大家深入浅出理解扩散和逆扩散过程。模型总览图2 DDPM 是经过训练以逐渐去除噪声数据的参数化马尔可夫链。我们估计生成过程的参数。forward 加噪过程(从右往左)reverse 去噪过程(从左往右)

2022-09-05 15:01:56 18022

原创 海康威视相机 RTSP 传输延迟解决方案

Rtsp认证主要分为两种:基本认证(basic authentication)和摘要认证( digest authentication )。基本认证是http 1.0提出的认证方案,其消息传输不经过加密转换因此存在严重>的安全隐患;摘要认证是http 1.1提出的基本认证的替代方案,其消息经过MD5哈希转换,因此具有更高的安全性。海康威视相机 RTSP 传输延迟太高。,会提示你启用后会增加安全风险,点击。:将视频类型从复合流改为视频流。:取消勾选平台接入的启用复选框。:将 RTSP 认证方式改为。.....

2022-08-29 16:10:22 10016

原创 【论文阅读】RePaint: Inpainting using Denoising Diffusion Probabilistic Models(CVPR 2022)

问题描述:自由形式的图像修复是在由任意二进制掩码指定的区域中向图像添加新内容的任务。大多数现有的方法针对特定的掩码分布进行训练,这将它们的泛化能力限制到看不见的掩码类型。此外,基于 pixel-wise 和 perceptual 损失的训练通常会导致对缺失区域的简单纹理扩展,而不是语义上有意义的生成。.....................

2022-08-28 15:06:49 17351 12

原创 【论文阅读】LaMa: Resolution-robust Large Mask Inpainting with Fourier Convolutions(WACV 2022)

问题描述:目前的图像修复算法在大块缺失区域、复杂几何结构以及高分辨率图像上的修复效果差强人意。原因分析:在修复网络和损失函数都缺少有效的感受野。解决方案:1)使用 fast Fourier convolutions(FFCs)以获取更大(wide)的感受野;2)使用一个更大(high)感受野的 perceptual loss(感知损失);3)训练的时候采用更大(large)的 mask 来验证前 2 步改进的效果。实验结果:超过了以往的 SOTA 模型,鲁棒性。............

2022-08-26 15:02:34 8064 7

原创 记录配置打印机遇到的三个问题

今天公司采购的彩色打印机到了,需要简单配置一下让在局域网内的同事们都能远程连接使用。上述重启电脑后在网络中竟然发现不了自己的设备,只能看到其他人的电脑。,提示无法连接到打印机。

2022-08-25 14:15:49 1673

原创 【PyTorch】切记:GeForce RTX 3090 显卡仅支持 CUDA 11 以上的版本!

得知 PyTorch 1.7.0 开始才支持 CUDA 11,所以要使用 GPU 训练的话,必须安装 PyTorch 1.7.0 及以上版本。前不久给新来的 2台 8 张 GeForce RTX 3090 服务器配置了深度学习环境(配置教程参考。原来是 GeForce RTX 3090 显卡仅支持 CUDA 11 以上的版本!文章),最近在使用的时候却遇到了各种问题。

2022-08-23 21:57:19 12364 7

原创 Human3.6M 数据集介绍及下载

360 万张 3D 人体姿势和对应图像11 名专业演员(6 男 5 女)7 个场景(讨论、吸烟、拍照以及打电话等等)

2022-08-18 14:50:23 31635 12

原创 解决DCNv2在Linux上安装失败的问题

今天同学安装 DCN(Deformable Convolutional Networks,可变性卷积网络)v2的 PyTorch 版本时遇到了很多问题,弄了将近一天也没解决。于是求助笔者帮忙解决,这里记录一下成功的解决方案。尝试了一下克隆仓库并安装,但也是报各种错误,但大部分原因都是 PyTorch 版本太高,高版本中删除了很多 C++ 写的头文件,导致编译错误。安装过程中的提示信息如下:(忽略警告)运行脚本校验安装是否可用:(忽略警告)......

2022-08-12 09:49:30 4703 4

原创 【原创工具 | OpenCV-CamCalib】一个基于 OpenCV 的自动化相机数据采集和标定程序

一个基于OpenCV的自动化相机数据采集和标定程序。系统内置相机地址默认为 0。

2022-08-09 15:41:38 2388 1

原创 【Windows】局域网内共享文件夹的设置方法

现在 pc1 桌面上建立一个名为 public 的文件夹,让 pc2 可以直接访问。Windows 系统自带有文件共享功能,可实现局域网内简单的协同办公。上述已经在 pc1 上完成共享配置了,pc2 可以进行远程访问了。6. 勾选共享此文件夹,还可以根据需要设置共享用户限制,点击。复制共享链接(pc2 远程访问的时候会用到),点击。7. 根据需要将完全控制和更改都勾选上,点击。2. 粘贴之前在 pc1 上复制的链接,点击。首先在 pc1 上新建文件夹并完成共享配置。计算机处于睡眠状态时无法共享文件夹!...

2022-08-05 14:24:08 9463

原创 【Python】根据 URL 读取网络图片的两种方式(OpenCV)

函数可以从本地磁盘读取图片并进行各种操作,但如何直接根据URL操作网络图片呢?本文介绍其两种实现方式。不过VideoCapture()是以视频的形式读取的,因此我们只需要取其第一帧。imread()函数不能直接读取网络图片,但。我们知道OpenCV提供了一个。...

2022-07-31 13:51:48 10555

原创 【Linux】Ubuntu 20.04 深度学习 GPU 环境配置(CUDA Toolkit 11.7 + cuDNN v8.4.1)

上述配置了三个深度学习GPU环境,分别是PyTorch,TensorFlow2和TensorFlow1。方便起见,我们这里直接跳过NVIDIA显卡驱动的安装,因为安装CUDA的时候会自动安装。例如,普通用户要使用PyTorch环境,但他同时还需要安装requests包,直接在名为。开始安装之前,需要修改apt-get的镜像源,不然国内下载速度很慢。PyTorch是目前比较主流的深度学习框架之一,深受学术界的青睐。这样既节省了服务器的存储空间,又避免了重复安装环境的烦恼。...................

2022-07-29 20:32:24 7728 3

原创 【Qt for Python】控件显示问题(默认不显示没有父控件的控件)

说这个的意思呢,就是提醒大家在主窗口(MainWindow)中调用对话框(Dialog)时别忘了给对话框设置。最近在学习PythonGUI开发,选择了比较通用的PySid6框架,这里记录一下关于控件显示的问题。,或者直接调用show方法,不然就会出现对话框无法显示的问题。,则当父控件显示后,子控件会自动跟着跟着显示,而无需手动调用。,即父控件,就默认不显示,除非你手动调用该控件的。新建(实例化)一个控件时,若没有指定。接下来,又新建一个按钮控件。如果你新建控件时,指定了。......

2022-07-22 15:55:42 1180

原创 【OpenCV】记录cv2.VideoCapture的一个坑

如果RTSP流视频的链接是正确的,那么很好,没有任何问题,访问也很快。为了不一直等待下去,我们需要做一个延时判断,给定一个最大响应时间,如果在该时间内程序仍未执行完成,则立即结束。需要使用cv2.VideoCapture来获取海康摄像机的RTSP流视频。......

2022-07-19 13:31:40 3761 3

原创 简单易用的PDF转SVG程序

今天给大家推荐一款简单易用的PDF转SVG程序。基于Poppler和Cairo开发,支持Windows和Linux。Windows版本是已经编译好的,可以直接使用。方便起见,你也可以将pdf2svg.exe所在目录添加到环境变量path中,这样你就可以在系统任意位置直接调用pdf2svg.exeLinux下载安装包之后,执行下方命令进行安装用法也和上述一样提示如果想批量转换,你也可以用python或shell等脚本语言来写一个简单的脚本调用程序进行转换。......

2022-07-06 09:20:03 3132 3

原创 【WSL】SSH 远程连接及宿主机端口转发配置

Windows 系统因其简单好用的图形化界面而深受广大用户喜爱,但一般科学研究和程序开发,我们都需要使用 Linux 系统的。为此,微软也在 Windows 系统内提供了一个嵌套的子 Linux 系统,用户可以根据需要选择性的开启,这就是 WSL。WSL 在使用 Linux 系统的同时,又能享受部分 Windows 的图形化界面服务,可谓一举双得。本文介绍如何在 WSL 中开启 SSH 服务,并通过配置端口转发让和宿主机同处一个局域网的计算机能够远程连接。为方便文章的展开,我们这里做个简单的定义:重启

2022-06-23 21:39:50 7003 2

原创 糖豆人登录报错解决方案

糖豆人在 Epic 上免费了!!!之前在 Steam 需要 18 块大洋,现在完全免费了。想玩的同学可以先下载 Epic 客户端,然后在里面搜索【糖豆人】并下载即可。前几天玩的还好好的,今天打开游戏界面的时候就遇到了这个问题:正好在用迅游加速器,加速器里面给了一个解决方案:Visual C++ 下载地址...

2022-06-23 19:42:32 2280

原创 解决近期Windows11更新后无法上网的问题

最近,笔者好几个电脑都更新了 Windows11,然后都同时出现了无法上网且偶尔蓝屏的情况。网络状态显示已连接,也可以 ping 通(),但就是无法上网。重启网络适配器的间隙可以上网,但网络适配器正常运行后又不能上网了。更奇葩的是,开的移动热点连上后竟然也可以上网,但就是电脑本身上不了网。关掉了防火墙,修改 DNS 后并刷新缓存(),仍然没用。尝试过很多方案后,仍然不能解决。笔者在一次一次失望之后,逐渐冷静下来。简单分析了一下,那肯定是系统的问题。之前就碰到过更新系统后,打印机无法正常远程连接的情况,最后是

2022-06-17 23:42:02 12697 6

原创 【Linux】The virtual environment was not created successfully because ensurepip is not available.

在 Ubuntu 系统上使用 Python3.8 创建虚拟环境时报错:解决方案报错信息中其实已经给了解决方案:当然,如果你不是 root 用户,得加上 sudo:但还是报错:这个是因为 apt 好久没有更新了,更新一下:更新之后继续安装:完美解决!...

2022-06-15 21:21:58 2756

原创 【Linux】修改Python命令默认指向Python3(通过软链接实现)

很多 Linux 发行版本,比如 Ubuntu 都会默认安装 Python2 和 Python3,当我们直接使用 Python 命令时,默认调用的是Python2,但我们实际想调用的却是 Python3。如何让 Python 命令直接指向 Python3 呢?在之前的文章中,我们介绍过如何在 Linux 中建立符号链接。当然,我们也常称符号链接为软链接。其实上述问题就可以通过建立一个符号链接来实现。建立指向 Python3 的软链接配置完成后,直接在终端命令行输入 python 就能看到结果了

2022-06-15 21:01:25 10523

论文分享Deep Multiple Instance Learning for Image Classification and Auto-Annotation(CVPR 2015)

论文分享Deep Multiple Instance Learning for Image Classification and Auto-Annotation(CVPR 2015)

2025-04-03

论文分享时空/视频预测学习经典论文SimVP和SimVPv2(附PPT)

论文分享时空/视频预测学习经典论文SimVP和SimVPv2(附PPT)

2025-03-29

论文阅读IC-Light(ICLR 2025 满分论文)

ppt

2024-12-14

pdf转svg的实用程序(Linux)

简易的PDF转SVG程序,基于Poppler和cairo库构建

2022-07-06

pdf转svg的实用程序(Windows)

简易的PDF转SVG程序,基于Poppler和cairo库构建

2022-07-05

KB5014668更新补丁(Windows11)

解决KB5014697更新后开启移动热点就无法上网的问题

2022-07-01

小丸工具箱安装包R236.zip

小丸工具箱是一款用于处理音视频等多媒体文件的软件。是一款x264、ffmpeg等命令行程序的图形界面。它的目标是让视频压制变得简单、轻松。

2021-12-23

解决 visdom的Downloading scripts问题

解决执行 python -m visdom.server 时,出现 Downloading scripts, this may take a little while 的问题

2021-10-25

蚂蚁蜜蜂迁移学习数据集

今天我们要要解决的问题是训练一个模型来实现蚂蚁和蜜蜂的分类。如果从头开始训练的话,这是一个非常小的数据集,就算做了数据增强也难以达到很好的效果。因此我们引入迁移学习的方法,采用在`imagenet`上训练过的`resnet18`作为我们的预训练模型。

2020-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除