多元方法:从数据到分类与回归的深入解析
1. 多元数据概述
在众多实际应用场景中,我们常常会对每个个体或事件进行多项测量,从而生成观测向量。这些样本可以用一个数据矩阵来表示:
[
X =
\begin{bmatrix}
X_{11} & X_{12} & \cdots & X_{1d} \
X_{21} & X_{22} & \cdots & X_{2d} \
\vdots & \vdots & \ddots & \vdots \
X_{N1} & X_{N2} & \cdots & X_{Nd}
\end{bmatrix}
]
其中,矩阵的 (d) 列对应着 (d) 个变量,这些变量代表了对个体或事件进行测量的结果,它们也被称作输入、特征或属性。而 (N) 行则代表了 (N) 个独立且同分布的观测、示例或实例。
以贷款申请审批为例,一个观测向量就是与一位客户相关的信息,可能包括年龄、婚姻状况、年收入等。这里的测量值可能具有不同的尺度,比如年龄以年为单位,年收入以货币单位计量。并且,有些变量(如年龄)是数值型的,而有些(如婚姻状况)则是离散型的。
通常情况下,这些变量之间存在相关性。如果变量之间没有相关性,那么进行多元分析就没有必要了。我们进行多元分析的目的可能有多种,比如简化数据,即通过相对较少的参数来概括大量的数据;或者进行探索性分析,对数据提出假设;还有可能是根据其他变量的值来预测某个变量的值。如果预测的变量是离散型的,这就是多元分类问题;如果是数值型的,则是多元回归问题。
多元方法:分类与回归解析
超级会员免费看
订阅专栏 解锁全文
3764

被折叠的 条评论
为什么被折叠?



