基于机器学习技术的枕簧表面缺陷分类与聚类思考
个人学习笔记,记录我的学习日常
1引言
通过机器视觉技术的辅助,我们能够采集到系列枕簧的表面缺陷图像,在采集到的图像中有很多种类(例如:划痕、裂痕、磕碰、锈蚀或者是污渍)。那么如何将这些缺陷准确分类?这就需要借助机器学习技术挖掘数据背后的真实含义,也就是对其进行分类或者聚类。
下面在进行具体的技术方案之前需要阐述一点基本知识作为支撑。
机器学习有两种基本的学习算法:有监督学习与无监督学习。二者的最大区别就是看输入数据是否有标签(label)。输入数据有标签,则为有监督学习;没标签则为无监督学习。【有监督机器学习又被称为“有老师的学习”,所谓的老师就是标签。有监督的过程为先通过已知的训练样本(如已知输入和对应的输出)来训练,从而得到一个最优模型,再将这个模型应用在新的数据上,映射为输出结果。再经过这样的过程后,模型就有了预知能力】。【而无监督机器学习被称为“没有老师的学习”,无监督相比于有监督,没有训练的过程,而是直接拿数据进行建模分析,意味着这些都是要通过机器学习自行学习探索。这听起来似乎有点不可思议,但是在我们自身认识世界的过程中也会用到无监督学习。比如我们去参观一个画展,我们对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别。比如哪些更朦胧一点,哪些更写实一些。即使我们不知道什么叫做朦胧派和写实派,但是至少我们能把他们分为两个类】。
除上述有无标签这个区别外,有监督机器学习的核心是分类,无监督机器学习的核心是聚类(将数据集合分成由类似的对象组成的多个类)。有监督的工作是选择分类器和确定权值,无监督的工作是密度估计(寻找描述数据统计值),这意味着无监督算法只要知道如何计算相似度就可以开始工作。
【这部分做进PPT】【个人认为(并非是行业默认分类)计算机视觉的研究与应用大致分为两类:依赖深度学习方法的一类,另一类就是传统方法的。
传统的研究方法大致分为三步:图像处理,机器学习,模式识别。这三步逐渐深入,先简单处理图片,然后通过简单的机器学习,最后进行结果的判定。传统的需要更多的OPENCV知识,常用C++系列计算机语言(python也可以),更多的是处理一些工业问题,倾向于机器视觉。
深度学习也可以分为三步:简单的图像处理(预处理),建立模型,跑GPU ,无限循环的模型修改与调参。此类需要的知识储备就是相应的机器学习算法,python语言,更倾向的是人工智能类的计算机视觉】
2 有监督的分类算法分类
2.1分类任务的综述
【首先参考前人类似的任务情况】
在文献[1]中铁科院将粗糙集理论应用在钢轨表面缺陷分类,粗糙集理论是一种很老的理论。利用粗糙集理论实现分类的主要思想是使用训练决策系统从数据中抽取有效的分类规则,之后建立测试决策系统来验证规则的有