自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 大华摄像头主动注册功能在Windows与Linux平台上的Python应用实践

在前不久的一个目标检测项目中,我面临着一个任务:将现场摄像头与服务器连接起来,以实时获取摄像头的视频流。在项目筹备阶段,我们了解到大华和海康这两家厂商都提供了功能强大的视频连接推流SDK。鉴于公司之前与大华有着良好的合作基础,我们最终决定选用大华的摄像头。撰写这篇博客,旨在详细记录摄像头的连接过程。虽然整个过程并不复杂,但我在实际操作中却因自己的粗心大意而遇到了不少麻烦。希望通过这次分享,不仅能帮助大家更顺利地完成类似的任务,也能提醒自己在未来的工作中更加细心谨慎。

2024-12-27 17:15:08 1074

原创 GOT-OCR 2.0:General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 端到端通用 OCR 模型

GOT-OCR 2.0 引入了一种新的通用光学字符识别理论——OCR 2.0,旨在革新和优化传统 OCR 系统(OCR-1.0)和大型视觉语言模型(LVLM)在 OCR 任务中的应用,突破其现有的限制。OCR 2.0 理论的核心理念在于构建一个统一、灵活且高效的 OCR 模型架构,使得光学字符识别不再依赖于繁琐的多模块流程,从而提升模型的易用性、精度和扩展性。传统的 OCR 系统(即 OCR 1.0)通常采用分模块的流水线架构,包含字符检测、区域裁剪、字符识别等多个步骤。

2024-11-07 18:54:26 866

原创 F5-TTS 零样本声音克隆项目详解

F5-TTS,一款由上海交通大学推出的高性能文本到语音(TTS)系统,凭借其创新的流匹配非自回归生成方法,并结合了先进的扩散变换器(DiT)技术,实现了在无额外监督条件下的零样本学习,能够迅速生成自然流畅且忠实于原文的语音。该系统支持多语言合成,涵盖中文和英文,并能在长文本上展现出色的语音合成效果。F5-TTS不仅功能强大,还具备丰富的个性化设置。其情感控制功能能够根据文本内容灵活调整合成语音的情感表现,为用户带来更加生动的听觉体验。

2024-10-29 09:44:25 2384 1

原创 将实例分割数据集json格式转成yolo分割的txt格式和目标检测的txt格式

支持将实例分割数据从JSON转换为YOLO格式(目标检测和分割两种格式)。读取文件夹内多个JSON文件,批量处理并输出对应的TXT文件。简化数据集转换流程,方便用于YOLO模型的训练。希望这个脚本能为大家的数据预处理工作提供帮助!

2024-10-20 15:19:22 1415 1

原创 保姆及windows版docker安装

在Windows上安装Docker时,可以选择使用不同的后端。其中两个常见的选择是:WSL 2(Windows Subsystem for Linux 2)和 Hyper-V 后端。此外,还可以选择使用Windows容器。三者的区别了解即可,推荐用WSL 2,因为虚拟机太重了…懂的都懂。

2024-09-03 19:10:04 1289

原创 c++ 张量的基本操作

c++ 张量的基本操作。

2023-09-23 10:48:26 601 1

原创 从excel文件中提取图片

从Excel中提取图片

2023-07-01 17:41:18 985

原创 xml文件转成txt文件

xml文件转成txt文件。

2023-07-01 17:19:37 3032 11

原创 Crowd Counting P2PNet 复现

Crowd Counting P2PNet复现

2022-07-16 14:04:41 5974 67

原创 如何使用MATLAB将mat文件转成txt文件

如何使用MATLAB将mat文件转成txt文件

2022-07-04 11:46:53 6100 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除