声波分类与材料不连续性非侵入式表征的机器学习方法
1. 分类器介绍
1.1 支持向量机(SVM)分类器
SVM最初是为二分类设计的高泛化性分类器。它基于用户定义的核函数将原始特征空间转换到更高维空间,然后找到支持向量以最大化两类之间的间隔。具体步骤如下:
1. 近似一个能分隔两类的超平面。
2. 从两类中选择离超平面最近的样本作为支持向量。
3. 超平面与支持向量之间的总间隔称为边距。
4. 迭代优化超平面和支持向量以最大化边距,从而找到最具泛化性的决策边界。
当数据集可由非线性边界分隔时,SVM会使用特定核函数来适当转换特征空间。对于不易分隔的数据集,采用软边距以避免过拟合,即对决策边界附近的分类错误给予较小权重。本文使用了两个SVM分类器,一个使用线性核,另一个使用径向基函数(RBF)核。
1.2 决策树(DT)分类器
决策树是一种适用于多分类的非参数分类方法。它处理训练数据集以构建树状决策结构,从根节点开始,以多个叶子节点结束。具体操作:
1. 每个节点分裂为内部节点和/或叶子节点,使分裂后数据集的纯度增加。
2. 在每个节点,算法选择一个特征和相应特征的阈值,使得使用所选特征和阈值分裂节点时,熵或杂质的下降最大。
3. 分裂的最佳情况是获得一个纯叶子节点,即只包含属于一个类的样本。
DT算法不需要特征缩放,但对数据中的噪声和训练数据集的选择敏感,因为该方法的方差较高。需要进行超参数优化以降低方差,但会以高偏差为代价。可以通过允许树生长到更大深度或允许叶子节点包含更少样本的方式来降低偏差,但会增加方差。不过,决策树模型易于解释,因为通过树
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



