军哥讲视觉-优快云博客

原创《计算机视觉度量：从特征描述到深度学习》—生成式人工智能在工业检测的应用

早期所有人都采用强化学习进行深度学习应用，但是在2021年开始，生成式的训练方式开始出现，行业内有一段时间出现，模拟生成缺陷的技术方案。这也许会是一个历史性的时刻，今天是2025年4月，过去两年多，那个时刻目前回想还是对本人造成了冲击，一个完全有自主分析能力的生成式AI机器人。完成生成式的AI用来检测工业缺陷。在使用过程中，目前主流的预训练视觉模型比如dinov2，CLIP等多模态模型，因为通过大数据的强化学习后，模型的特征提取主要基于范式的特征信息，而非指定的数据特征，这对生成过程中的数据容差特别重要。

2025-04-15 14:32:30 388

原创《计算机视觉度量：从特征描述到深度学习》—深度学习工业检测方案评估

工业视觉的深度学习方案，目前都是基于基础视觉模型实现的，基础模型有最早的VGG，Resnet等经典基础模型，同样后面取得成功的模型也都是基于这些经典模型设计的。非监督解决了，数据不足的问题。2019年本人开始用深度学习在工业检测方向，目前已经过去了6年时间，从最早的分类算法，到目标检测算法，分割算法等技术方向，到2020年最早一批进入工业非监督算法的设计和研究。把深度学习看作图片特征提取的一种方法，已经成为了行业内的共识，得益于模型对大数据进行了特征提取的总结，才有了模型对任何图片的特征范式总结方法。

2025-04-10 09:00:01 628 2

原创 MIP工业视觉框架--工业深度学习分类模型源码解析

MIP的深度学习框架是基于Pytorch做的开发，基于Python做的源码开发。第二部分数据管理：针对MIP的标注格式，获取Json的文件数据，对数据文件的内容进行解析，转换成pytorch的数据格式。推理部署的代码是通过FLASK进行的，数据的读取预处理方式和训练的一样。第三部分做训练回归函数设计，回归函数设计主要设计查看预训练模型的参数，如果不知道预训练模型参数，可以采用SGD调整学习率的方法lr_scheduler。训练的主体代码就是这些。模型测试的代码，是根据训练的数据形式，获取模型推理的准确性。

2024-02-03 10:40:48 819

原创《计算机视觉度量：从特征描述到深度学习》--工业视觉深度学习方法概述

分类模型的局限就是，每个图片的大小根据预训练模型设计只有256*256，图片非常小，在工业场景中图片最小的都是3000*4000的图片，所以正使用分类方法的时候，首先进行图片的定位和裁剪，做到检测区域为0256*256的图片大小，这样大大能提升图片的准确性和泛化能力。同样，上面分析结论是，在生产场景中，数据的分类学习是一种图片数据到标签数据的映射过程，在部署过程中数据的数据是无法通过参数调试的，但是标签数据可以，标签数据的数量在设计过程中越少对模型的分类泛化能力越强。在使用过程中标签的数量越少越稳定。

2024-01-27 12:13:36 978

原创 MIP工业视觉框架--近期开发更新

经过大量的社区用户和测试反馈，中间过程修改了一些BUG，目前稳定性和易用性大大提高。（1）解除连接：解除组件之间，连接的信号和槽关系，为单独调试组件参数提供便利。（2）组件连接：连接设置中组件之间的关系，为算法逻辑设计提供帮助。（2）用户设计界面：切换窗口到用户个性化设计界面。（1）算法设计界面：切换窗口到算法逻辑设计界面。也可以在微视频和B站关注“军哥讲视觉”，学习MIP的基本操作。更多内容可以在抖音关注“军哥讲视觉”，学习MIP的基本操作。（1）创建模板匹配模型。2.个性化设计界面方案，2月开始进行。

2024-01-17 16:53:26 854

原创《计算机视觉度量：从特征描述到深度学习》--工业视觉核心方案＜传统算法和深度学习结合＞

目前学术上主流的使用ImageNet的数据进行测试，ImageNet数据集采用100K以上的数据，进行1000中类型的分类，学术上一直在挑战这个数据集的准确性。但是在特定的工业场景下，场景比较单一，分的类型也比较少，所以在预训练的模型进行迁移学习，得到的泛化能力就很强，接近于人工的分辨能力。上面介绍的方法，适合在装配行业采用，对有强特征的图片进行矫正后，对特定的检测区域进行分类，会快速的部署到现场。2.根据矫正的图片进行特定检测区域的图片裁剪，裁剪区域的大小最好是512*512或者256*256的区域。

2024-01-13 11:30:47 676

原创计算机视觉度量：从特征描述到深度学习》-- 工业视觉深度学习方案（分类+YOLO）

采用预训练模型，收殓会过拟合，从而停止特征更新，由于是预训练的模型进行迁移学习，所以分类对NG数据足够的泛化能力，基本漏检率控制在0.5%以下。分类算法核心是卷积和激活函数，近五年的技术发展和实践验证了很多分类方法，分类模型都在完成多分类的工作，生成大量的泛化能力很强预训练模型。3.现场验证和重构数据比较快速，在出现客户不能容忍的错误出现的时候，对指定数据在行多次的复制，增加数据的特征表达，禁止漏检问题的出现。第一期方案分享，在面板检测，平面检测，无花纹的纺织，印刷，PCB面板等平面检测方案。

2024-01-10 10:22:51 785

原创《计算机视觉度量：从特征描述到深度学习》-- 多模态特征融合（CLIP）＜文字表述和图数据融合分类＞

在工业视觉领域有一个大的痛点，就是视觉产品的兼容性和更加具体的文字表述性，简单点表述就是我一套算法怎么兼容多个产品的检测和分类，还有对特征不具体复杂的工作环境下进行具体的数值和产品尺寸的描述。就拿视觉行业常见的方法分类来说，在做CNN网络分类的时候，我们会对每个图片进行打标签，便签最后会变成特征值，使用神经网络进行图片和特征值之间的拟合回归，生产最优的特征网络解。CLIP可以采用更多的文字表述和细节表述，对图片和文字进行监督性的学习，适应在复杂和多产品的产线进行文字表述，分类，分割等工作。

2024-01-06 10:53:27 1131

原创 MIP工业视觉框架--通用组态组件开发２（参数管理）

MIP每个组件都会有设置单独的参数，并对参数进行保存，在运行和重新加载的时候。为了满足参数基本的管理需求，MIP采用反射机制中宏定义的方式。这是MIP进行参数绑定的方法，处理绑定int类型，还可以绑定所有QT对象类型。申请完参数绑定后，在申请的对象中要申请实际的数据对象内容和设置函数。setMaxThresholds 设置参数的函数。//申请绑定参数最大值。//申请绑定参数最小值。//设置阈值最大值参数。//设置阈值最大值函数。//设置阈值最小值函数。WRITE 设置参数的标识。name 设置参数的名称。

2023-12-25 11:02:56 677

原创 MIP工业视觉框架--通用组态组件开发

QT标准的普及性很高，开源，跨平台的优势，成为很多团队的开发底层框架。MIP框架采用QT注册制反射机制的原理，对模块和平台，以及界面的完全解耦化。数据的交互采用QT的信号和槽函数，也就是MIP界面出现的引脚标记函数，组件上面识别的是控件所有自定义的槽函数，下面识别的是所有自定义的信号函数。实现这个接口，外部框架可以采用显示连接的方式调用clear()，获取实现的对象。这就是实现一个简单组件的过程。

2023-12-20 10:10:56 1710

原创 MIP工业视觉框架--工程数据保存

框架设计的项目保存的功能，采用QT标准的工程格式XML进行保存。主要保存界面绘制的布局，和组件的重要外设参数，以及组件和组件之间关系节点。框架设计的项目加载功能，通过读取保存的XML文件数据，恢复界面的布局，并恢复组件节点之间的关系，并进行连接恢复。恢复路径处理恢复在界面上的布局外，同时还恢复和组件和组件之间的关系连接方式。代码中保存两种绘制类型，一个是组件对象，一个是组件对象的关联路径节点。采用QT的对象QDomDocument进行保存和恢复。这是工程的序列化和反序列化，保存组件工程界面的方式。

2023-12-18 11:42:41 464

原创 MIP工业视觉框架--外部数据交互

作为工业场景和开发平台的中间件，为了实现和各种平台之间的数据交换。框架设计了一套交互标准，主要形式是采用共享内存方式进行数据交换。数据的通讯采用共享内存的方式，后期会直接对接C#，Python,Java等语言的开发。同时为市面上流通的工业软件和平台提供了接口。设计主要采用QSharedMemory类型进行设计，官方链接。设计一个线程对象，不断的对写入的KEY数据进行读取和更新数据。外部软件数据输出方法。

2023-12-07 10:39:17 635

原创 MIP工业视觉框--核心代码解释

QT核心机制是信号和槽，同时信号和槽是通过注册宏的形式来是别的。本次框架设计依托QT的这个性质，设计适合工业系统的框架。界面的开发是基于QT的Graphics结构进行开发。QT的反射机制也是注册性质，采用宏定义的方式，对执行函数和特定关键字进行识别。/********组件外部暴露的接口，用来接收和传递输出*********/在框架中对暴露的函数接口进行识别，采用QMetaobject对象。框架采用QT为底层开发，核心使用qt封装的反射结构。识别注册的函数是信号函数还是槽函数。是外部框架可以识别的函数接口。

2023-12-04 18:30:40 744

原创 MIP工业视觉框--框架介绍

说明一下为什么会开发这样一套框架结构，本人从事视觉开发8年时间，前后经历过四套框架，自己参与两套框架设计，另外维护两套框架。作为QT基本框架和工业应用场景的中间件的形式存在，会采用组件的形式整合业内资源，降低工业软件的开发门槛，和开发工作量。对功能的模块的信号和槽事件进行识别和标识，应用组件的核心代码都采用信号的方式进行数据传输，槽函数的方式进行执行，自定义的信号函数输出结果。会建立开发社区，和应用社区。3.对外的公开的接口维护，主要包括组态框架的API开发维护，和针对其他语言调用的API维护和方法说明。

2023-11-30 09:54:47 1009

原创 MIP工业视觉框架--QT设计反射机制

为应用程序中使用的每个 QObject 子类创建一个 QMetaObject 实例，此实例存储 QObject 子类的所有元信息。method()和 methodCount()提供有关类的元方法（信号、插槽和其他不可调用的成员函数）的信息。在另外一个工程中调用DLL并使用反射机制，设置QtDLL.dll组件的参数，并接收组件改变的信号。enumerator()和 enumeratorCount()，并提供有关类枚举器的信息。声明一个C++可以显示连接的对象函数，对象函数里面返回New要加载的组件对象。

2023-11-21 20:14:28 877

原创《计算机视觉度量：从特征描述到深度学习》-- 异常检测方法概述

(或者其他的深度学习基础模型)每一层的输出向量值，用来表示数据非线性处理输出的结果。通过多元高斯聚类的方式对深度学习每层的向量结果进行评估分类，分类中获取的欧式距离作为深度学习每个输出向量上的分数，通过深度学习向量Map映射关系获取每个像素的分数值。第四阶段是针对以上理论的工程优化，在前三个阶段技术理论已经成熟，为了降低算法对硬件的要求，对第三阶段的Resnet模型和Flow模型，进行PDN（patch description network）方式的裁剪，缩减模型参数提高计算速度降低硬件需求。

2023-11-09 14:48:57 459

原创《计算机视觉度量：从特征描述到深度学习》-- 支持局部形变和矫正功能的模板匹配（Local Deformable Model）

默认 []，列表【 [], 'angle_step', 'deformation_smoothness', 'expand_border', 'expand_border_bottom', 'expand_border_left', 'expand_border_right', 'expand_border_top', 'scale_c_step', 'scale_r_step', 'subpixel'】。例如，模板中是一个暗背景上有一个亮的目标，那么在检索时，即使目标对象很亮而背景很暗，也能匹配成功。

2023-09-11 11:54:25 877

原创《计算机视觉度量：从特征描述到深度学习》-- 机器学习进行one-class缺陷检测算法（GMM为例）

本次主要采用的GMM模型create_class_gmm，模型设置参数，第一个参数5代表输出有效图片的通道数，分类可以更需求增加有效检测区域的通道数不分时域和频域。根据图片特征，提取有效的时域和频域的图片，一般采用做了基础矫正，或者一致性好的时域图片或者频域图片，进行One-Class图片的训练。在设置分类的数据前，需要确定时域和频域有效的图片，添加到模型，这里采用的是五个频域转换图片作为训练数据。核心模块，采用正常图片训练一个分类模型，用实时采集的图片进行比对，检测缺陷区域。

2023-09-08 16:06:56 855 1

原创《计算机视觉度量：从特征描述到深度学习》-- MLP对数据进行分割检测

获取分割区域，检测有效区域。下面例子是采用MLP对颜色区域进行分割。目前学习方式进行分割的方法有很多，机器学习的分割方式，是不采用预训练的方式进行分割。准备好检测对象的图片，使用标注的方式获取要检测对象的区域，并提前要知道分类和检测的数量。添加数据类型的时候，是根据gen_empty_obj，创建对象里面，添加顺序做的类型标识，如果图片上面没有要添加的类型区域，可以设置一个空区域进去。获取分割结果的时候，也是通过select_obj，根据区域的ID获取不同对象的结果，ID对应的是添加的顺序，顺序从1开始。

2023-09-05 16:44:27 559

原创《计算机视觉度量：从特征描述到深度学习》-- 传统差分模板(Variation Model)进行检测设计

'standard'表示标准的训练方法，标准图像的位置是各训练图像位置的平均，'robust'表示鲁棒的训练方法，标准图像的位置是各训练图像的中值，此模式在训练图像中可能存在ERROR时使用，'direct'表示标准图像由单张图像经过处理得到，由此方法得到的标准图像只能应用prepare_direct_variation_model算子得到variation model。绝对阈值即待检测图像与标准图像的差值，相对阈值即待检测图像与variation model与VarThreshold乘绩的差值。

2023-09-01 10:50:03 581

原创《计算机视觉度量：从特征描述到深度学习》从SVM，KNN到MLP工业视觉应用解析 --SVM篇（2）

这是继承传统检测方式到自动分类方式的逐渐过渡，这种方式的优势是，结合和传统算法的可解释性，同时也结合和机器学习的自动调参功能。说面是一些简单的Blob分析的参数可以分类的向量，例子采用的是7维度到2维的类方式，同时可以采用更高维度到任意数的低维的方式进行分类。区域的几何矩（见算子moments_region_2nd_rel_invar）区域的几何矩（见算子moments_region_2nd_rel_invar）区域的几何矩（参见操作符moments_region_2nd_invar）

2023-08-20 12:44:49 629

原创《计算机视觉度量：从特征描述到深度学习》相机成像和计算成像（1）

介绍市面上出现很多新颖的相机，它们使用计算成像的方法将原始传感器数据合成新图像。例如：深度照相机和高动态范围照相机。传统的照相机系统使用单个传感器，镜头和光照装置来创建二维图像。然而可计算成像的照相机能提供多种光学元件，多种可编程光照模式以及多个传感器，从而使新的应用（如三维深度感知和图像的光照重置）成为可能。这些应用可充分利用深度信息将图像作为纹理映射到深度图上，以引入新的光源，并在图形处理流程中重新呈现该图像。由于可计算相机刚出现在消费设备上，这将成为计算机视觉的最前沿，因此下面将介绍一些常用的方法。

2020-08-04 10:09:36 1705

原创《计算机视觉度量：从特征描述到深度学习》传感器（5）

色彩和光照校正相机必须进行色彩校正，以便平衡总的色彩精度和白平衡。尽管硅材料传感器对红色和绿色这两种颜色通常很敏感，但对蓝色不敏感。因此准确校正传感器的颜色是得到精确色彩的基本工作。大多数图像传感器的专业处理器，都包含了用于虚光校正的几何处理器，它在图像边缘会表现为光照太暗。校正是基于几何扭曲函数，该函数需要在出厂前进行标定，以便与光学的虚光模式相匹配，通过可编程光照可以增强边缘的光照。介绍应用于虚光的图像扭曲方法几何校正镜头可能会有几何相差和边缘区域发生扭曲，从而产生颈方失真的图像。于虚光有关的话

2020-08-03 10:06:28 337

原创《计算机视觉度量：从特征描述到深度学习》传感器（4）

《计算机视觉度量：从特征描述到深度学习》传感器（4）传感器去马赛克根据不同的传感器元件，利用相应的去马赛克算法将原始的传感器数据转换成最终的RGB阵列。论文一和论文二分别对各种方法和面临的挑战进行了详细的介绍去马赛克的主要挑战之一是像素插值，其作用是将临近单元的颜色通道值组合成单个像素。当给定传感器元件排列的几何形状和纵横比时，这个问题就变的非常重要。另一个与之相关的问题是临近单元颜色通道比值，例如，在每个RGB像素中，各种颜色所占的比例。因为在马赛克传感器中，空间像素分辨率大于最终组合的RGB

2020-08-02 19:42:00 348

原创《计算机视觉度量：从特征描述到深度学习》传感器（3）

《计算机视觉度量：从特征描述到深度学习》传感器（3）相机动态范围，噪声，超分辨率当前最先进的传感器中每个颜色单元能提供8位，或者12~14位的像素精度，传感器需要时间和面积来聚集光子，所以必须精心设计传感器元件，以避免产生的一些问题。噪声的问题有可能来自光学元件，颜色滤镜，传感器元件，增益放大器，A/D转换器，后期处理或者压缩过程。传感器的噪声会影响实际分辨率，因为每个像素单元传感器输出，转换给A/D转化器组成数字形式的行和列，以便用于像素转化。越好的传感器产生的噪声越少，而且还会得到更高效的位分

2020-07-31 14:00:44 1057

原创《计算机视觉度量：从特征描述到深度学习》传感器（2）

《计算机视觉度量：从特征描述到深度学习》传感器（2）光电二极管图像传感器关键是光电二极管的面积，当传感器元件采用比较小面积的光电二极管的时，捕获的光子数量不如面积大的光电二极管多，如果元器件尺寸小于可见光线的波长（比如紫外光线，可见光线的波长，紫外光线~红外光线的波长的范围是10nm–400um,通常传感器元件的尺寸是7*7um左右）。传感器为了校正图像颜色，必须在传感器设计时解决很多问题。传感器必须优化元器件的大小，以确保所有的颜色能同等成像。在极端情况下，由于缺乏累积的光子传感器会读出噪声，所以小

2020-07-28 11:37:27 425

原创《计算机视觉度量：从特征描述到深度学习》传感器（1）

《计算机视觉度量：从特征描述到深度学习》，内容描述和工程分析（1）传感器文章介绍本人是工业机器视觉工程师，从事工业视觉开发6年时间，有丰富的行业经验。做个两个视觉工业框架，一个是基于QT的组态工业视觉解决方案，一个是基于C#的视觉软件框架。目前在世界500强企业从事视觉项目开发工作和工程软件开发工作。自我介绍就这么多，开始说为什么要开始写着一系列文章，自己在行业内深耕了很多年，熟悉很多框架和软件工具。但是对于应用者来说，接口的封装和功能说明都很片面。在读取很多专业书籍后，发现视觉行业内还是建立在80年

2020-07-27 20:31:55 1509

原创机器视觉平台介绍

几大机器视觉平台的详细说明：1.DSP平台（是基于TI公司的C64X或者C64X+系列以上芯片为基本设计原理）2.GPU平台（基于英伟达的CUDA系列开发包，包括OPENCV4LT开发包，以及AMD的GPU基于OPENCL并行加速OPENCV开发软件为基本原理）3.基于PC系列平台（基于HALOCON，MATLAB商业软件，以及开源软件OPENCV软件开发包）4.基于FPGA系列平台（由于开发难度...

2016-03-27 13:22:10 792

qq_17767255的博客