以下数据是一维还是二维
练习1:通过PCA找到新坐标系的中心(2,3),△x=1,沿坐标系x’向右移,则△y=1;△y=1,沿坐标系y’向上移,则△x=-1
向量长度√2,按原坐标系计算
练习2:通过PCA找到新坐标系的中心(3,3),△y=-1,沿坐标系x’移动,则△x=2;△x=1沿坐标系y’移动,则△y=2
x’=0.5a+3.5
x’+△y=0.5(a+△x)+3.5
因为△y=1,则△x=2
y’=2a-3(两直线垂直斜率乘积-1)
y’+△y=2(a+△x)-3
因为△x=1,则△y=2
练习:哪些数据可以用于PCA?
练习:轴何时占主导地位
长轴是否占优势(长轴特征值远远大于短轴特征值)?1和3长轴捕获了全部数据,2中短轴与长轴不断延伸,因此其两个特征值可能具有相同的量级,而我们实际上并没有通过运行pca获得更多信息
从四个特征到两个
在不知道有多少特征的情况下,选择size和neighborhood特征,用SelectKBest(只保留K个最适合特征)
SelectPercentile(保留的特征的百分比)
复合特征:
二维特征通过映射成一维
练习:沿着最大方差的维度进行映射时,能够保留原始数据中最多的信息
练习:最大主成分数量=训练点数量和特征数量的最小值
PCA回顾/定义: