数据规约

属性规约 降维 主成分分析 PCA

数值规约

from sklearn.decomposition import PCA
import pandas as pd
import numpy as np
data = pd.read_excel(“F:/result/b.xls”)

删除有缺失值的行

data.dropna(inplace=True)

主成分分析

pca1 = PCA()
pca1.fit(data)

返回模型中的各个特征量print(tz1)

chara = pca1.components_

print(chara)

各个成分中各自方差百分比(贡献率)

c_rate = pca1.explained_variance_ratio_

print(c_rate)

降维 3维变2维

pca2 = PCA(2)
pca2.fit(data)
reduct = pca2.transform(data)
print(reduct)

恢复维度

recovery = pca2.inverse_transform(reduct)
print(recovery)

### 数据规约嵌入法的概念与实现 数据规约嵌入法是一种用于降低高维数据复杂性和冗余的技术,旨在保留原始数据的关键特性的同时减少存储空间需求和提高算法效率。这种方法通常应用于机器学习、数据分析和知识图谱等领域。 #### 数据规约的主要目标 数据规约的目标在于简数据集而不丢失重要的模式或结构信息。常见的技术包括维度规约、数值规约数据压缩等[^1]。这些方法能够帮助提升模型训练速度并改善泛性能。 #### 嵌入法的核心理念 嵌入法是指将高维数据映射到低维空间的过程,在此过程中尽可能保持原空间中的距离关系或其他特定属性不变。例如,在知识图谱中,实体和关系可以通过嵌入向量表示,并利用诸如TransE这样的模型捕捉它们之间的语义关联[^5]。 #### 实现方法概述 以下是几种典型的数据规约嵌入方法及其特点: 1. **主成分分析 (PCA)** PCA 是一种常用的线性降维技术,它通过寻找新的坐标轴方向最大方差来重构数据点的位置分布情况。具体来说就是找到一组正交基使得投影后的各维度之间相互独立并且具有最大可能的信息含量[^3]。 2. **t-SNE** t-Distributed Stochastic Neighbor Embedding(t-SNE),主要用于可视高维数据。不同于传统的降维算法关注全局几何性质,t-SNE 更侧重于局部邻近关系的保存,因此特别适用于探索复杂的非线性流形结构下的簇状聚集现象[^2]。 3. **Autoencoder 自动编码器** Autoencoders 属于神经网络架构的一种变体形式,由编码部分(encoder) 和解码部分(decoder) 组成。输入经过一系列变换操作后被压缩至较低纬度的空间再还原回原来大小;理想状态下希望重建误差越小越好从而提取出有效的特征表达[^4]。 4. **SVD奇异值分解(Singular Value Decomposition)** SVD 可看作是对矩阵进行因式分解的操作之一,它可以揭示隐藏在大规模稀疏表格背后的潜在因子组合规律。对于推荐系统而言,SVD 不仅能有效缓解冷启动问题还能增强预测精度。 #### 结合实际案例的应用场景探讨 假设在一个电子商务平台上存在大量商品评论文本数据待处理前需先完成清洗过滤等工作流程之后可进一步运用TF-IDF词频逆文档频率统计生成对应的向量表征最后借助上述任意一款工具包执行后续任务比如聚类分类等等操作步骤均遵循既定原则即始终围绕着如何更好地服务于最终业务决策制定而展开深入研究实践验证评估不断迭代优直至达到预期效果为止。 ```python from sklearn.decomposition import PCA import numpy as np # Example of applying PCA to reduce dimensionality data = np.random.rand(100, 10) # Simulated dataset with 10 features pca = PCA(n_components=2) reduced_data = pca.fit_transform(data) print(reduced_data.shape) # Output should be (100, 2), indicating reduced dimensions. ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值