机器学习之特征向量维度与样本空间

样本空间:以样本的属性为坐标轴张成的多维空间,也叫属性空间,输入空间。

        实际问题中,样本的属性就是样本的特征向量,所以样本的特征向量维度越高,张成的样本空间就越大,如果样本的特征向量是二维的(x, y),则样本空间是是一个二维空间,即一个平面,如果特征向量是三维的(x, y, z),张成的样本空间就是三维空间,我们现实世界中的每一个物体的坐标就可以用三维的特征向量来描述。当然这两个例子中特征向量的每一个元素取值都是无限多的(负无穷到正无穷且连续),可以假设特征向量的每一个元素都只有两个取值可能,可以直观地看到,当我们的特征向量增加维度地时候,每增加一个维度,则要覆盖住样本空间需要地样本数目是以2的指数级增长的,特征向量的维度越高,完全覆盖住样本空间需要的样本数也就越多

特征向量(x),只需要两个样本就可完全覆盖

                (x,y),需要4(2^2)个样本完全覆盖

                  (x,y,z)需要8(2^3)个样本完全覆盖

                       ..........

降维与过(欠)拟合问题:当我们用高维度的特征向量来作为训练样本时,样本空间很大,需要大量的训练样本才能保证分类器见过每一类的样本的不同特征表示(每一类样本的特征向量不是完全相同的,相当于我们的分类的C个类别把样本空间给瓜分了,每一个类别包含了样本空间的一部分,但也是相当可观数目的特征向量了,高维时想让分类器见到每一类所有可能的特征向量几乎时不可能的),样本数目不够的时候,很容易导致欠拟合,且我们在真正分类的时候,有些特征可能是不需要的,特别地,这些特征可能只在训练集中有,测试集是没有的,而当我们用大量的样本使得分类器学到了这些不需要的特征,这就导致我们的分类器泛化性能差。所以可以用降维的方法来解决过拟合的问题。

### 机器学习中的特征向量 #### 特征向量的定义 在机器学习领域,特征向量是一个重要的数学工具。它被用来表示数据集中的每一个样本实例。具体而言,设 \( A \) 是一个 \( n \times n \) 的方阵,如果存在一个数 \( λ \) 和一个非零列向量 \( α \),使得关系式 \( Aα = λα \) 成立,则称 \( λ \) 为矩阵 \( A \) 的特征值,而 \( α \) 则被称为对应于该特征值的特征向量[^4]。 这种定义不仅适用于线性代数,在实际应用中也具有重要意义。例如,当处理文本数据时,可以通过词频统计构建特征向量来描述文档的内容特性[^1]。 --- #### 特征向量的作用 特征向量的主要作用在于降维和简化复杂的数据结构。通过提取最重要的信息部分,能够有效减少模型训练的时间成本并提升预测性能。以下是几个典型应用场景: - **图像识别** 对于图片类别的判断任务,原始像素点可能构成非常高维度的空间。利用主成分分析(PCA)技术可以从这些冗余变量里挑选出少数关键方向作为新的坐标轴——也就是所谓的“特征向量”,从而实现压缩存储的同时保留主要模式[^3]。 - **推荐系统** 用户行为习惯可以用稀疏矩阵形式表达出来;通过对这个大尺寸表格做奇异值分解(SVD), 可得到隐含因子组成的低秩近似版本, 进一步用于个性化商品建议生成过程之中. - **聚类分析** K-means等无监督方法依赖距离度量完成群体划分操作. 如果原始输入属性之间存在较强关联性或者噪声干扰较大情况下, 预先变换到由主导趋势决定的新基底下再执行后续步骤往往会取得更好效果. --- #### 如何计算特征向量? 给定任意实数域内的方形数组\( M\): 1. 解决齐次线性方程组\[ (M-\lambda I)v=0,\quad v\not=\vec{0} \],其中I代表单位矩阵. 2. 寻找满足上述条件的不同数值组合(\(\lambda_i,v_j)\). 注意这里提到的方法只是理论框架的一部分; 实际编程环境下通常借助现成库函数自动完成整个流程比如NumPy包下的`numpy.linalg.eig()`接口可以直接返回所需结果列表. ```python import numpy as np # 创建示例矩阵 matrix_A = np.array([[4, 2], [1, 3]]) # 计算特征值特征向量 eigenvalues, eigenvectors = np.linalg.eig(matrix_A) print("Eigenvalues:", eigenvalues) print("Eigenvectors:\n", eigenvectors) ``` 运行以上脚本将会展示相应解答详情供参考验证之用. --- #### 应用案例讨论 尽管支持向量机(SVMs)具备强大的边界区分能力但由于其内部机制原因面临一些局限之处如难以应对超大数据集合以及天然偏向两类别决策等问题[^5]. 不过这并不妨碍我们继续探索其他改进型变种方案克服原有缺陷进而推广至更广泛范围之内加以运用. 另外值得注意的是虽然理论上任何合法映射都可以充当核函数角色但在实践中人们倾向于优先考虑几种常见类型因为它们已经经过充分测试证明可靠稳定易于调整参数达到预期目标水平之上. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值