
AI自由行
文章平均质量分 85
视觉,模式识别和机器学习,测重工业应用
子正
豆瓣:https://www.douban.com/people/twicave
展开
-
YOLO - pose detect 输入输出接口与执行效率测试
Nose: 横坐标=0.5296, 纵坐标=0.247867, 可见性=0.989055Left Eye: 横坐标=0.538345, 纵坐标=0.229076, 可见性=0.987131Right Eye: 横坐标=0.523728, 纵坐标=0.236682, 可见性=0.803624Left Ear: 横坐标=0.565252, 纵坐标=0.220562, 可见性=0.97476Right Ear: 横坐标=0.0, 纵坐标=0.0, 可见性=0.178567原创 2025-02-28 16:48:43 · 649 阅读 · 0 评论 -
yolo11 training benchmark [i7-13700 vs nvidia 3090]
两次训练的数据集,nvidia3090上跑的还要多10%的数据。nvidia环境没有做优化。nvidia3090的训练速度是i7-13700 2.4G的20倍。原创 2025-02-27 18:00:01 · 306 阅读 · 0 评论 -
标量化rknn的输入输出向量转换处理
当onnx模型尚未标量化(quantize)之前,自训练数据集能够有效识别目标对象,但是,rknn模型,通常是标量化转换过的,就是输入输出参数已经从float32->u8。那么如何处理丢给rknn模型的输入输出参数,然后进行反标量化(dequantize)?我们先尝试把这个输入输出的default dtype修改为float32,看看有没有可能行。一般的处理,是需要拿到0点和缩放scale。原创 2025-02-20 14:38:37 · 1308 阅读 · 0 评论 -
python环境的yolov11.rknn物体检测
如果确认最终稿的结论成立。我会在这个帖子里留下标记。上面的两代码没有大问题,我在测试成功后会更新,现在就是对的。似乎:yolo11.output5 == yolo5.output2,原创 2025-02-18 11:53:57 · 575 阅读 · 0 评论 -
label-studio 导入既有的yolo格式标注
这是新增识别物体训练前的一个预处理过程。你的额外标注要建立在模型已经具备的识别能力的基础上。原创 2025-02-17 16:03:23 · 1264 阅读 · 1 评论 -
yolo11s rknn无法detect的bugfix - step by step
上周四下班时,发现在宿主机环境工作良好的既有的pytorch模型,在通过.pt->.onnx->.rknn的转换后无法正常工作。周五下班时,怀疑疑点在两处:周六,周日,周末时间,我将各个环境的pytorch版本修改为渐趋一致,并且参照了rknn2.3中的版本要求,对齐到同一个版本,并且怀疑training部分的版本与pt->rknn的环境不一致,我把两个环境融合到一个docker了。 在周日最后一次detect测试时,结果仍然是目标对象无法检出。下面针对这个问题,开展分析,尝试解决。原创 2025-02-17 11:45:26 · 907 阅读 · 0 评论 -
pt->onnx->rknn(量化) step by step & FAQ
yolo模型量化至rknn模型的步骤和注意事项原创 2025-02-14 11:29:07 · 1271 阅读 · 0 评论 -
rk3588模型转换&部署环境配置 - step by step
Base Image 依赖的ubuntu镜像,# AuthorLABEL maintainer="username <user@email.addr>" #可以修改这里# Author# 提前设置时区# 备份原有的 sources.list 文件# 创建新的 sources.list 文件并写入阿里云源# 更新软件包列表# expectcmake \git \原创 2025-02-13 14:07:48 · 1228 阅读 · 0 评论 -
yolo11自训练极简教程 - 训练&侦测
去年我处理过的最后一个版本是yolov10.新年再次着手处理视频识别的工作。发现自清华的v10之后,去年下半年v11再次发布了。国外的知识库做的很棒,没事就可以翻翻。周末对工作中的一些数据进行标注后,今天开始搭建training环境。通过选择你的操作系统、包管理器、编译语言以及显卡类型,下面可以直接生成要执行的安装指令,非常的便捷。原创 2025-02-11 14:33:47 · 897 阅读 · 0 评论 -
yolo新增物体训练的可能问题及处理
不知道大家是否意识到这个问题,在进行yolo训练时,因为从ultralytics拿到的预训练模型中已经包含了80类物体的识别参数。现在比如说,我们要识别一个新物体,比如:月饼,此时,我们该怎么做?我能想到的最佳实践,还是先对新增的数据集进行预标注,然后对新增物体的标注,混合进预标注文件里,然后,再进行训练。因为新增识别对象会增大模型的参数(虽然只是线性的增加,但是仍然会有不良后果),所以,建议在yolo的class_id中选择一个相似,并且一定不会在识别现场出现的class_id作为训练对象。原创 2025-02-11 11:14:04 · 610 阅读 · 0 评论 -
使用label-studio来进行Yolo格式图片标注的几个问题
原始图片推荐使用OBB(Oriented Bounding Box)标记,就是倾斜的边界框,有些算法可以直接对此类标记对象进行处理。在img.net和瑞芯微的双重加持下,现在的计算机视觉识别已经在各行业快速推进。进行自行标注时,首先遇到的问题就是标注工具的选择问题,标注作业不需要自己手工完成——也没有必要。国产的某几个标注工具,加QQ群,一场庞大的体积,遂放弃。稍稍用Python对导出的标注信息进行处理,就能够生成Yolo标准的静态图片格式。推荐在Label的选择时,选择为对视频本身进行标注。原创 2025-02-09 16:23:16 · 550 阅读 · 0 评论 -
[Chap.07] MOMOD of UCSD, in 1970s
加州理工的第一代语义分析模型MEMOD,in1970‘s,最终我可能会把它转变为一个python程序。这是《ExplorationsinCognition》的一个章节。其他章节的笔记会陆续贴出。原创 2025-01-15 15:39:23 · 657 阅读 · 0 评论 -
瑞芯微mpph264enc输出FHD的尺寸故障追踪
瑞芯微的硬件编码器在gstreamer里面出现花屏和绿边的故障定位和处置过程...原创 2024-09-18 09:22:49 · 1292 阅读 · 0 评论 -
瑞芯微系列 video stream out的一些基础知识
是的,你的理解是正确的。在 GStreamer 中,**PPS(Picture Parameter Set)**的处理主要是在编码阶段由 x264enc 来完成,而 h264parse 和 rtph264pay 主要用于解析和打包已经编码好的 H.264 数据流,无法直接修改 PPS 或 SPS 的内容。实际分辨率与标明的分辨率:编码器可能会将视频帧编码为实际分辨率(如 1920x1088),但在流的格式字段中(如 SPS/PPS 中),它可能标明了标准的分辨率(如 1920x1080)。原创 2024-08-26 15:34:20 · 930 阅读 · 0 评论 -
ONVIF 摄像头视频流获取 - 步骤与Python例程
.基本流程加入组播udp接口,查询子网内在线的ONVIF摄像头的设备地址:设备地址形如:http://192.168.0.6/onvif/device_service这一步,参看上一篇发文:[ONVIF系列 - 01] 简介 - 设备发现 - 相关工具-优快云博客查询mediaService Uri地址mediaService地址形如:http://192.168.0.6/onvif/Media查询用户的Profiles,得到一个我们需要的Profile原创 2024-08-02 09:38:15 · 2242 阅读 · 0 评论 -
瑞芯微平台H.264硬件编码推流的注意事项
注意,与拉流推流花屏,绿屏相关的问题,本质只有一个——就是缓冲区的点阵数量不对。出现问题时,纠错的第一步始终是打印frame缓冲区,看看那个尺寸与你的预估是否相同。width*height*1.5的,一定是YUV型数据width*height*3的,一定是RGB数据。比理论数据多一个尾巴的,一定是因为h264或者h265编解码对齐,产生的一些数据:比如:1920*1080在编解码之前需要对齐到1920*1088。。。。对于编码器而言,这个限制条件仍然存在,在进入硬件编码器之前,你需要手工原创 2024-07-30 16:31:00 · 698 阅读 · 0 评论 -
瑞芯微平台H.265 真实视频分辨率获取例程 - in python
如果你在使用瑞芯微平台遭遇解析.h265视频帧时,YUV图片绿屏,或者显示混乱,这就是解决方案。相关分析过程可参考临近的几篇分析文档。原创 2024-07-29 14:29:37 · 635 阅读 · 0 评论 -
[笔记] 卷积03 - 运算的对称性 时域构建高通滤波器的失败尝试
卷积运算的运算交换律结合律分配率,典型的低通滤波曲线与实验,尝试在时域徒手构建高通滤波器对应的响应函数,失败,以及失败的原因——高通滤波器在时域的等价物:时间响应函数无法用初等函数的有限排列组合实现。。。。它必须是个差分方程。原创 2024-07-04 10:31:59 · 1549 阅读 · 2 评论 -
YOLOv10在RK3588上的测试(进行中...)
yolov10的测试,之前yolov5我的实测数据,在rk3588上只能达到每秒10帧。原创 2024-06-13 17:09:25 · 2325 阅读 · 9 评论 -
[笔记] rknn Toolkit1.6=>2.0 API变动注释
RKNN 1.6=>2.0的一些API和编译参数变动概要。然后还有RKNN建模和模型转换的笔记。原创 2024-06-07 11:32:56 · 1189 阅读 · 0 评论 -
Yolo-v5模型训练速度,与GeForce的AI算力描述
GeForce RTXTM 3070 Ti 和 RTX 3070 显卡采用第 2 代 NVIDIA RTX 架构 - NVIDIA Ampere 架构。该系列产品搭载专用的第 2 代 RT Core ,第 3 代 Tensor Core、全新的 SM 多单元流处理器以及高速显存,助您在高性能要求的游戏中所向披靡。3090量化到FP32,使用官方的Pytorch跑,完整的60 classes coco数据集一个是18.04小时。Coco训练集大概是12万张图片,60 classes.原创 2024-06-04 09:36:07 · 1761 阅读 · 0 评论 -
rk3588 - yolov5 60帧/s的尝试[处理中...]
yolov5 rknn群里的信息,拉+推的视频延迟总体原创 2024-05-13 10:58:12 · 1014 阅读 · 1 评论 -
YUV2RGB
视频YUV格式转为RGB点阵的python实现。原创 2024-05-07 15:16:51 · 155 阅读 · 0 评论 -
如何判断嵌入式平台OpenCV在使用硬件编解码器?
查看系统自带的.264硬编码器是否已经生效的判断标准。原创 2024-04-30 16:50:18 · 1319 阅读 · 3 评论 -
视频转换过程中的几个基本注意事项
视频转换过程中的一些低级错误的由来,以及针对性的处理策略,程序框架和示例代码。原创 2024-04-29 20:48:52 · 397 阅读 · 0 评论 -
图像识别模型onnx2rknn转换程序(可用于鲁班猫4 - rk3588s)
yolov5 在rk3588平台的.rknn模型库原创 2024-04-29 11:33:38 · 579 阅读 · 0 评论 -
利用mediamtx搭建rtsp流媒体server
介绍了rtsp流媒体服务器的一种实现方式;通过mediamtx,它可以很容易地很python环境集成。这个流媒体服务器提供rtsp, rtmp等多种媒体流发布。原创 2024-04-29 11:14:11 · 2590 阅读 · 4 评论 -
购买国外技术书籍的途径
技术书籍的网购指南,推荐了美国的thriftBooks.com网站原创 2024-04-15 08:58:20 · 1283 阅读 · 0 评论 -
AI算法中的关键先生 - 反向转播与戴维莱姆哈特
AI机器学习过程中的关键先生:反向传播算法的设计人。原创 2024-03-28 11:10:22 · 470 阅读 · 0 评论 -
工作中的障念 - AI运算超时
hi,为什么我在工作的时候会遭遇一种无法描述的障念,问题并不复杂,但是似乎有一堵无形的墙挡着自己不能前进。这是一种普遍现象吗?原创 2024-03-25 17:16:50 · 633 阅读 · 0 评论 -
机器学习的核心算法 - CNN的原理探讨
个人理解:神经网络的计算是一个使用特定的虚拟传感器对数据进行采样(卷积层),然后对卷积层的结果——升维的张量进行归一化和抑制、增强处理(激活函数层),然后将这些数据进行再次采样(池化层)降低解算复杂度。然后对所有传感器的张量数据总体依照标定的输出结果,反向推导参数,甚至逐级回溯,根据大量的数据输入,对特定问题的一组参数矩阵的额求解过程,类似参数拟合。最终将参数稳定下来,求得一个参数矩阵。原创 2024-03-25 14:03:12 · 1960 阅读 · 0 评论 -
为什么电脑降价了?
周末,非常意外地用不到3000元买到了一款2023年度发布的华为笔记本I5,16G,500G,基本是主流配置,我非常意外,看了又看,不是什么Hwawii,或者Huuawe。然后也不是二手。为什么呢?因为在ALU和FPU之外,一个新的部件即将成为标配:NPU。原创 2024-01-22 18:42:52 · 2348 阅读 · 2 评论 -
数据库连接问题 - ChatGPT对自身的定位
Chapt GPT会根据问题,提供必要的辅助性信息。当你的问题显得非常不专业的时候,它只能反馈给你一些更简单,更容易理解的信息。当你的问题涉及到某个概念时,它才会把相关概念所涉及的另一套信息反馈给你。我的理解应该还不够准确。本文也大致描述清楚了数据库访问时,如何优雅地处理数据库连接。更稳健,更便捷地使用数据库连接。原创 2023-12-21 20:38:38 · 1179 阅读 · 0 评论 -
AI换脸的一种技术实施例
人脸识别过程:1.首先识别到关键的人脸部分,经过一个粗筛过程,把目标物的脸部图样先抓出来。2.然后,因为人脸的水平,垂直角度是可变的,所以第二部,它会把人脸强制归正,归一化到平视,摄像头正向前置,人脸的尺寸也缩放到与人脸库中的人脸尺寸相当的地步。3.开始最简单的特征点位比对。并且注意,第2步运算是可逆的矩阵运算,就是把正面照贴合到任何一个角度和姿态。所以,这就是换脸的技术路径。通过上述方法可以把人脸数据库里任何人的脸与原始图片做无缝贴合——换掉你的脸。原创 2023-11-16 15:36:15 · 359 阅读 · 0 评论 -
AI图像识别初次尝试
3.1 yoloV3的训练库使用的分辨率是一个正方形的分辨率,416*416或者压缩,或者是扫描。3.2上面筛选目标对象的代码没有代入,所以误识别到了一些其他物体。3.3 yoloV3的训练库名称是:yolov3.weight yolov3.cfg3.4置信概率50%。原创 2023-11-01 16:54:28 · 639 阅读 · 2 评论