148、“核技巧”是什么意思?它如何扩展支持向量机的能力?
“核技巧”指的是,如果存在一个简单函数
$$ K(f_i, f_j) = \Phi(f_i)^T \Phi(f_j) $$
就用它取代式(12.29)中的点积。该函数称为 核函数 ,它能通过将 $ f $ 嵌入高维空间来找到非线性决策边界,而无需在这个高维空间中实际进行优化。
核技巧扩展支持向量机能力的方式在于,使支持向量机能够处理非线性决策边界问题,在处理特征空间中特征重叠的数据时,通过核函数将数据映射到高维空间,从而更有效地找到决策边界,解决原本线性方法难以处理的分类问题。
149、如果凝聚式聚类的簇数量未知,应遵循什么策略?如何识别簇?
如果簇数量未知,凝聚式聚类会持续合并,直到生成单个簇。可以通过存储凝聚过程的二叉树来识别簇,树的叶子节点是初始簇,若两个节点对应的簇合并则创建一个父节点。在凝聚树中上下移动,选择并检查簇的成员,有助于了解类成员在簇中的真实分布。
150、模糊聚类中模糊性是如何编码的?找到最优模糊聚类的目标是什么?
在模糊聚类中,模糊性通过划分矩阵 $ U $ 编码,矩阵中的每个元素 $ u_{ij} $ 决定了 $ N $ 个样本中特征向量为 $ f_i $ 的样本 $ i $ 对 $ C $ 个聚类中聚类 $ j $ 的隶属度,隶属度被归一化到 $[0,1]$ 范围,且需满足两个条件:
- 每个样本对所有聚类的总隶属度为 1;
- 没有空聚类。
找到最优模糊聚类的目标是基于紧致性定义创建具有紧凑聚类的良好划分。若用样本到其聚类中心的距离定义紧致性,目标是找到 $ U_{\text{opt}} $,使特征 $ f_i $ 和聚类中心 $ c_j $ 之间的加权距离 $ u_{ij} |f_i - c_j| $ 之和最小。对应的函数为:
$$
U_{\text{opt}} = \arg\min_U \sum_{i=1}^{N} \sum_{j=1}^{C} u_{ij}^m |f_i - c_j|^2
$$
其中,$ 2 \leq m < \infty $。
151、Bagging和Boosting的主要区别是什么?为什么使用Boosting会有优势?
Bagging 与 Boosting 的主要区别
Bagging 生成一个投票方案,每个分类器对一个类别进行投票,得票最多的类别获胜;而 Boosting 生成一系列分类器,每个分类器从前一个分类器中学习,并且投票根据分类器的质量进行加权。
使用 Boosting 的优势
使用 Boosting 的优势在于,它可以通过对样本加权,使后续分类器专注于纠正之前分类器未充分纠正的错误,从而逐步提高分类性能。
152、为什么有必要记录验证场景,而不仅仅是验证结果?
即便验证显示成功,也不能忘记验证的潜在假设。记录验证场景,能让方法的潜在用户判断验证是否适合其目的。验证结果只是样本,记录验证场景可包含以下信息:
- 描述验证所基于的数据
- 假定的地面真值及理由
- 衡量质量的标准
- 构成成功验证的定义及理由
153、验证场景的主要组成部分有哪些,应该记录什么?
验证场景的描述应包含以下信息:
- 要进行验证的数据描述
- 假定为真值的描述和理由
- 衡量质量的标准
- 定义并说明构成成功验证的条件
154、描述一个场景,在该场景中体积计算是衡量轮廓勾画任务质量的合适标准。什么时候不应该使用体积计算?
当对象的精确轮廓未知时,体积计算或类似的测量(如预期直径或包围对象的边界框大小)有时是获得质量衡量标准的唯一方法,此时体积计算是合适的标准。
由于相同的体积并不意味着勾画的是同一个对象,所以体积计算是最不可靠的衡量标准,不应该单独用于衡量轮廓勾画任务的质量。若要建立一般质量(例如为推广该方法用于其他应用),应使用所有类型的质量衡量标准。
155、在什么条件下区分过分割和欠分割是有意义的?
当过度分割的重要性与欠分割的重要性不同时,分别评估这两种情况是有意义的。
156、豪斯多夫距离揭示了关于轮廓勾勒质量的哪些信息?请描述一个使用该指标来评估轮廓勾勒方法的重要场景。
豪斯多夫距离在轮廓勾勒质量评估中的应用
豪斯多夫距离基于计算 f 和 g 边界点之间的最短距离来确定语义对应点的假设。若以此能恰当表征轮廓勾勒结果的质量,其可用于衡量轮廓勾勒质量。
应用场景
- 当轮廓勾勒的地面真值数据包含划定片段的边界时
- 豪斯多夫距离可被计算
- 此时它对评估轮廓勾勒方法很重要
157、敏感性和特异性分别反映了什么信息?为什么需要用特异性来评估检测方法?请举一个例子。
敏感性反映分析方法漏检的可能性,其定义为
**Sv = TP / (TP + FN)**,
代表相对于 T 中所有元素的阳性检测率。
特异性反映检测方法产生误报的可能性,定义为
**Sp = TN / (TN + FP)**,
代表相对于 N 中所有元素的阴性决策率。
需要用特异性评估检测方法是因为假阳性结果(如检测出肿瘤但实际无肿瘤)和假阴性结果(如漏检肿瘤)可能有不同后果,需分别衡量这两种误差。
例如,在肿瘤检测中,特异性可衡量将无肿瘤误判为有肿瘤的可能性。

最低0.47元/天 解锁文章
1372

被折叠的 条评论
为什么被折叠?



