软件度量中的非线性模型、多重共线性及典型相关性分析
在软件度量领域,我们常常会运用各种模型和分析方法来理解和预测软件的各种属性。接下来,我们将详细探讨非线性模型、多重共线性问题以及典型相关性分析等重要内容。
1. 非线性模型
非线性建模过程始于一个非线性假设。在软件度量数据中,主要有两种类型的非线性模型。
- 多项式模型 :其形式较为复杂,当存在多个自变量时,模型会变得相当复杂。而且,模型可能在部分自变量上呈线性,而在其余自变量上呈非线性。
- 另一种非线性模型 :形式为特定表达式,不过这种模型在软件度量工作中价值不大。因为我们很难提出像“Faults = 0.04 * LOC1.62”这样合理的先验假设。很多研究者盲目使用复杂的统计工具来拟合数据,却忽略了找到一个既能拟合数据又具有良好未来预测能力的模型才是关键。我们应该严格限制没有足够统计分析训练的人使用统计软件包。
多项式模型具有一定的实际有效性。以啤酒消费和愉悦感之间的关系为例,大学新生在第一次参加啤酒派对时,随着啤酒的饮用,愉悦感会先上升,达到一定程度后开始下降,最后甚至会后悔参加派对。这种现象显然需要一个非线性假设,对于有过类似经历的人来说,无需先使用线性模型再使用非线性二次多项式模型进行实验。
有时候,自变量之间的非线性关系最初并不明显。当我们绘制残差与每个自变量的关系图时,如果发现残差中存在二阶或三阶效应的迹象,就需要仔细检查数据和测量过程,以确定非线性的来源。一旦确认因变量和一个或多个自变量之间存在非线性关系,我们就必须制定新的假设,设计新的实验,收集新的数据,并将新的非线性模型应用到新数据上。 <
超级会员免费看
订阅专栏 解锁全文
616

被折叠的 条评论
为什么被折叠?



