扫描电镜图像的机器学习分割方法研究
1. 特征提取与训练数据集
在图像分析中,采用区域纹理分类而非单个像素分类。虽然SIFT和加速稳健特征是流行的特征提取方法,但因其检测器和描述符主要用于对象匹配和跟踪,不适合当前情况,所以未被采用。
训练数据集对机器学习模型的学习和泛化能力有重要影响。优质的训练集选择有助于学习过程,提高分割性能并减少训练时间。为此,训练样本需高质量,确保像素能精确分配到组件类型。为实现稳健分类,建议训练数据集为平衡数据集,即每种组件类型使用相同数量的像素。例如,分别为孔隙/裂缝、有机/干酪根、岩石基质和黄铁矿组件选择了705、2074、17373和15000个像素。
选择训练像素后,为每个训练像素提取16种特征,构成训练分类器所需的训练数据集。通常建议在训练分类器前对特征进行缩放,因为某些学习技术(如神经网络和k近邻算法)对特征缩放敏感。但在本分割方法中,由于随机森林分类器可处理未缩放数据,所以未进行特征缩放。
2. 特征向量分类
随机森林模型广泛用于分类。它是一种基于决策树的集成模型,通过并行训练多棵决策树,并以多数决策作为最终决策。单个决策树模型易于解释,但具有非唯一性和高方差的问题。而随机森林通过组合数百个决策树模型,降低了方差和偏差。
随机森林在数据集的各种子样本(自助法)和可用特征的子样本上并行训练多个决策树分类器。在实践中,随机森林分类器不需要过多的超参数调整或特征缩放,易于开发和实现,能产生稳健的分类结果,还提高了扫描电镜图像分割的可重复性。
不过,为克服区分孔隙/裂缝组件和有机/干酪根组件的挑战,需要调整随机森林的超参数。重要的超参数包括控制过拟合的树的最大深度
超级会员免费看
订阅专栏 解锁全文
1026

被折叠的 条评论
为什么被折叠?



