机器学习基础之特征向量维度

本文解析了数据维度的概念,包括数组和Series中的维度定义、图像特征向量的数量与维度的关系,以及降维算法的目的与应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 对于数组和Series来说

对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。索引以外的数据,不分行列的叫一维(此时shape返回唯一的维度上的数据个数),有行列之分叫二维(shape返回行x列),也称为表。一张表最多二维,复数的表构成了更高的维度。当一个数组中存在2张3行4列的表时,shape返回的是(更高维,行,列)。当数组中存在2组2张3行4列的表时,数据就是4维,shape返回(2,2,3,4)。

 

数组中的每一张表,都可以是一个特征矩阵或一个DataFrame,这些结构永远只有一张表,所以一定有行列,其中行是样本,列是特征。针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。

 

2. 对于图像来说

对图像来说,维度就是图像中特征向量的数量。特征向量可以理解为是坐标轴,一个特征向量定义一条直线,是一维,两个相互垂直的特征向量定义一个平面,即一个直角坐标系,就是二维,三个相互垂直的特征向量定义一个空间,即一个立体直角坐标系,就是三维。三个以上的特征向量相互垂直,定义人眼无法看见,也无法想象的高维空间。

 

3. 降维算法中的“降维”

降维算法中的”降维“,指的是降低特征矩阵中特征的数量。上周的课中我们说过,降维的目的是为了让算法运算更快,效果更好,但其实还有另一种需求:数据可视化。从上面的图我们其实可以看得出,图像和特征矩阵的维度是可以相互对应的,即一个特征对应一个特征向量,对应一条坐标轴。所以,三维及以下的特征矩阵,是可以被可视化的,这可以帮助我们很快地理解数据的分布,而三维以上特征矩阵的则不能被可视化,数据的性质也就比较难理解。

 

### 机器学习中的特征向量 #### 特征向量的定义 在机器学习领域,特征向量是一个重要的数学工具。它被用来表示数据集中的每一个样本实例。具体而言,设 \( A \) 是一个 \( n \times n \) 的方阵,如果存在一个数 \( λ \) 和一个非零列向量 \( α \),使得关系式 \( Aα = λα \) 成立,则称 \( λ \) 为矩阵 \( A \) 的特征值,而 \( α \) 则被称为对应于该特征值的特征向量[^4]。 这种定义不仅适用于线性代数,在实际应用中也具有重要意义。例如,当处理文本数据时,可以通过词频统计构建特征向量来描述文档的内容特性[^1]。 --- #### 特征向量的作用 特征向量的主要作用在于降维和简化复杂的数据结构。通过提取最重要的信息部分,能够有效减少模型训练的时间成本并提升预测性能。以下是几个典型应用场景: - **图像识别** 对于图片类别的判断任务,原始像素点可能构成非常高维度的空间。利用主成分分析(PCA)技术可以从这些冗余变量里挑选出少数关键方向作为新的坐标轴——也就是所谓的“特征向量”,从而实现压缩存储的同时保留主要模式[^3]。 - **推荐系统** 用户行为习惯可以用稀疏矩阵形式表达出来;通过对这个大尺寸表格做奇异值分解(SVD), 可得到隐含因子组成的低秩近似版本, 进一步用于个性化商品建议生成过程之中. - **聚类分析** K-means等无监督方法依赖距离度量完成群体划分操作. 如果原始输入属性之间存在较强关联性或者噪声干扰较大情况下, 预先变换到由主导趋势决定的新基底下再执行后续步骤往往会取得更好效果. --- #### 如何计算特征向量? 给定任意实数域内的方形数组\( M\): 1. 解决齐次线性方程组\[ (M-\lambda I)v=0,\quad v\not=\vec{0} \],其中I代表单位矩阵. 2. 寻找满足上述条件的不同数值组合(\(\lambda_i,v_j)\). 注意这里提到的方法只是理论框架的一部分; 实际编程环境下通常借助现成库函数自动完成整个流程比如NumPy包下的`numpy.linalg.eig()`接口可以直接返回所需结果列表. ```python import numpy as np # 创建示例矩阵 matrix_A = np.array([[4, 2], [1, 3]]) # 计算特征值与特征向量 eigenvalues, eigenvectors = np.linalg.eig(matrix_A) print("Eigenvalues:", eigenvalues) print("Eigenvectors:\n", eigenvectors) ``` 运行以上脚本将会展示相应解答详情供参考验证之用. --- #### 应用案例讨论 尽管支持向量机(SVMs)具备强大的边界区分能力但由于其内部机制原因面临一些局限之处如难以应对超大数据集合以及天然偏向两类别决策等问题[^5]. 不过这并不妨碍我们继续探索其他改进型变种方案克服原有缺陷进而推广至更广泛范围之内加以运用. 另外值得注意的是虽然理论上任何合法映射都可以充当核函数角色但在实践中人们倾向于优先考虑几种常见类型因为它们已经经过充分测试证明可靠稳定易于调整参数达到预期目标水平之上. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值