主成分分析(principle component analysis)介绍

本文深入浅出地介绍了主成分分析(PCA)的基本概念及其在数据降维中的应用,并提供了使用OpenCV实现PCA的具体步骤和实例代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、介绍

主成分分析(principal components analysisPCA)又称主分量分析主成分回归分析。旨在利用降维的思想,把多指标转化为少数几个综合指标。在统计学中,PCA是一种简化数据集的技术。

它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

二、原理

PCA是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。

PCA的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法,是数学上处理降维的一种方法。

三、计算步骤

设样本数据为n维,共m个。

1、将这些样本数据按列组成矩阵Xnm

2、对X按行均值化,即先求每一行的均值,然后该行的每一个元素都减去这个均值

3、求出协方差矩阵

4、求出协方差矩阵的特征值即对应的特征向量

5、将特征向量按对应的特征值的大小,从时而下按行排列成矩阵,取前k行组成矩阵P

6、则Y = PX即为降维到k维后的数据集。

举例:

原始数据为2维,有5个数据。组成的矩阵为:


我们的任务是将这个2维的数据集降到1维。

首先按行均值化,由于我们举例的数据如此简单,你会发现均值化后的矩阵不变哈!

接下来去协方差矩阵:


接下来去C的特征值和特征向量(此处略,可参考线性代数)结果为:

特征向量时通解,c1和c2可取任意非零实数。标准化后的特征向量为:



按特征值由大到小,将对应的特征向量按行由上往下写,得到矩阵:


由于我们要降到1维,即选取第一个主成分,即选取第一行,于是有:


四、用OpenCV 3.3 计算PCA

在OpenCV3.3版本中,在core.hpp文件中定义了类cv::PCA Class用于计算PCA。通常的用法如下:

using namespace cv;
PCA compressPCA(const Mat& pcaset,  // 输入的数据集,其PCA结果由return给出
                int maxComponents,  // 主成分的个数,如果数据时n维的,则主成分要<=n
                const Mat& testset, // 测试数据集
                Mat& compressed)    // 测试数据集的PCA的结果
{
    // 定义PCA类对象,调用了带参数的构造函数(直线构造函数时就计算出了主成分)
    PCA pca(pcaset,                 // pass the data
            Mat(),                  // we do not have a pre-computed mean vector,so let the PCA engine to compute it
            PCA::DATA_AS_ROW,       // indicate that the vectors are stored as matrix rows
                                    // 即每一行为一个样本,样本的维数为pcaset.cols,共pcaset.rows个样本
            maxComponents);         // specify, how many principal components to retain
            
    // if there is no test data, just return the computed basis, ready-to-use
    if( !testset.data )
        return pca;
    CV_Assert( testset.cols == pcaset.cols );
    compressed.create(testset.rows, maxComponents, testset.type());
    Mat reconstructed;
    for( int i = 0; i < testset.rows; i++ )
    {
        Mat vec = testset.row(i), coeffs = compressed.row(i), reconstructed;
        // compress the vector, the result will be stored in the i-th row of the output matrix
        pca.project(vec, coeffs);
        // and then reconstruct it
        pca.backProject(coeffs, reconstructed);
        // and measure the error
        printf("%d. diff = %g\n", i, norm(vec, reconstructed, NORM_L2));
    }
    return pca;
}


同时,在OpenCV的tutorial中提供了一个例子:

https://docs.opencv.org/3.1.0/d1/dee/tutorial_introduction_to_pca.html
这个例子中,输入数据是一个个的contour。每个contour中,每一点(Point)视作一个样本,即样本维数为2,contour中有多少个点就有多少个样本。需要计算的主成分也是2,即没有进行降维。该例子的重点不是PCA的输出结果,而是想说明每个主成分的几何意义(特征值和对应的特征向量)。根据线性代数理论,未知数是2时,最多有2个特征值,即对应了2个特征向量。分别代表了这个contour(可以是任意形状)的长轴和短轴。

下边贴出代码:

#include <iostream>
#include <opencv2/opencv.hpp>

using namespace std;
using namespace cv;

// Function declarations
void drawAxis(Mat&, Point, Point, Scalar, const float);
double getOrientation(const vector<Point> &, Mat&);

// 画坐标轴(带箭头的直线)
void drawAxis(  Mat& img, 
                Point p, // from start point
                Point q, // to end point
                Scalar colour, const float scale = 0.2)
{
    double angle;
    double hypotenuse;
    angle = atan2( (double) p.y - q.y, (double) p.x - q.x ); // angle in radians
    hypotenuse = sqrt( (double) (p.y - q.y) * (p.y - q.y) + (p.x - q.x) * (p.x - q.x));

    // Here we lengthen the arrow by a factor of scale
    q.x = (int) (p.x - scale * hypotenuse * cos(angle));
    q.y = (int) (p.y - scale * hypotenuse * sin(angle));
    line(img, p, q, colour, 1, CV_AA);

    // create the arrow hooks
    p.x = (int) (q.x + 9 * cos(angle + CV_PI / 4));
    p.y = (int) (q.y + 9 * sin(angle + CV_PI / 4));
    line(img, p, q, colour, 1, CV_AA);

    p.x = (int) (q.x + 9 * cos(angle - CV_PI / 4));
    p.y = (int) (q.y + 9 * sin(angle - CV_PI / 4));
    line(img, p, q, colour, 1, CV_AA);
}

// PCA
double getOrientation(const vector<Point> &pts, Mat &img)
{
//! [pca]
    //Construct a buffer used by the pca analysis
    int sz = static_cast<int>(pts.size());
    Mat data_pts = Mat(sz, 2, CV_64FC1);
    for (int i = 0; i < data_pts.rows; ++i)
    {
        data_pts.at<double>(i, 0) = pts[i].x;
        data_pts.at<double>(i, 1) = pts[i].y;
    }

    //Perform PCA analysis
    PCA pca_analysis(data_pts, Mat(), CV_PCA_DATA_AS_ROW);

    //Store the center of the object
    Point cntr = Point(static_cast<int>(pca_analysis.mean.at<double>(0, 0)),
                      static_cast<int>(pca_analysis.mean.at<double>(0, 1)));

    //Store the eigenvalues and eigenvectors
    vector<Point2d> eigen_vecs(2);
    vector<double> eigen_val(2);
    for (int i = 0; i < 2; ++i)
    {
        eigen_vecs[i] = Point2d(pca_analysis.eigenvectors.at<double>(i, 0),
                                pca_analysis.eigenvectors.at<double>(i, 1));

        eigen_val[i] = pca_analysis.eigenvalues.at<double>(i);
    }

//! [pca]
//! [visualization]
    // Draw the principal components
    circle(img, cntr, 3, Scalar(255, 0, 255), 2);
    Point p1 = cntr + 0.02 * Point(static_cast<int>(eigen_vecs[0].x * eigen_val[0]), static_cast<int>(eigen_vecs[0].y * eigen_val[0]));
    Point p2 = cntr - 0.02 * Point(static_cast<int>(eigen_vecs[1].x * eigen_val[1]), static_cast<int>(eigen_vecs[1].y * eigen_val[1]));
    drawAxis(img, cntr, p1, Scalar(0, 255, 0), 1);
    drawAxis(img, cntr, p2, Scalar(255, 255, 0), 5);

    double angle = atan2(eigen_vecs[0].y, eigen_vecs[0].x); // orientation in radians
//! [visualization]

    return angle;
}

int main(int argc, char** argv)
{
//! [pre-process]
    // Load image
    String imageName("./pca_test1.jpg"); // by default
    if (argc > 1)
    {
        imageName = argv[1];
    }
    Mat src = imread( imageName );

    // Check if image is loaded successfully
    if(!src.data || src.empty())
    {
        cout << "Problem loading image!!!" << endl;
        return EXIT_FAILURE;
    }

    imshow("src", src);

    // Convert image to grayscale
    Mat gray;
    cvtColor(src, gray, COLOR_BGR2GRAY);

    // Convert image to binary
    Mat bw;
    threshold(gray, bw, 50, 255, CV_THRESH_BINARY | CV_THRESH_OTSU);
//! [pre-process]

//! [contours]
    // Find all the contours in the thresholded image
    vector<Vec4i> hierarchy;
    vector<vector<Point> > contours;
    findContours(bw, contours, hierarchy, CV_RETR_LIST, CV_CHAIN_APPROX_NONE);

    for (size_t i = 0; i < contours.size(); ++i)
    {
        // Calculate the area of each contour
        double area = contourArea(contours[i]);
        // Ignore contours that are too small or too large
        if (area < 1e2 || 1e5 < area) continue;

        // Draw each contour only for visualisation purposes
        drawContours(src, contours, static_cast<int>(i), Scalar(0, 0, 255), 2, 8, hierarchy, 0);
        // Find the orientation of each shape
        getOrientation(contours[i], src);
    }
//! [contours]

    imshow("output", src);

    waitKey(0);
    return 0;
}

运行结果:

绿色线为第一主成分对应的特征向量;青色线为第二主成分对应的特征向量!



测试代码:

https://code.youkuaiyun.com/guoyunfei20/pca.git



### 回答1: 主成分分析(PCA)是一种常用的数据降维方法,它通过线性变换将高维数据转换为低维数据,同时保留数据的主要特征。PCA的基本思想是将原始数据投影到一个新的坐标系中,使得投影后的数据方差最大化,从而找到数据的主要方向。PCA可以用于数据可视化、特征提取、数据压缩等领域。 ### 回答2: 主成分分析(PCA)是一种数据降维技术,可以将高维数据转换成较低维度,以便更好地理解和可视化数据。它的基本思想是找到数据中最重要的方向,即方差最大的方向,将数据转换到这个方向上,再找到第二个最重要的方向并按照重要性递减的顺序进行转换,直到找到所有主成分。 主成分可以理解为一组基础变量,它们描述了数据的主要变化。它们是数据中最大可解释方差的线性组合,因此第一主成分描述的是数据的最大可解释方差,第二个主成分描述的是余下的最大可解释方差,以此类推。因此,通过保留前几个最重要的主成分,我们可以节省计算资源,并且提高了数据分析的速度和效率。 PCA的应用广泛,包括数据预处理、特征提取、信号处理和数据可视化等方面。在数据预处理中,PCA可以用于降噪、去冗余和增强特征的重要性等;在特征提取中,PCA可以用于提取数据中最重要的特征,去除不相关的特征;在信号处理中,PCA可以用于去除不相关的噪声,保留信号的关键部分;在数据可视化中,PCA可以将高维数据映射到二维或三维空间上,以更好地理解数据的结构和关系。 尽管PCA有许多优点,但也存在一些限制。首先,它假设数据是线性可分的,不能处理非线性的情况;其次,PCA只能发现线性相关性,不能发现非线性相关性;此外,当数据集中存在离群值时,它容易受到干扰。因此,在应用PCA时要注意这些限制,根据具体情况选择适当的方法和技术。 ### 回答3: 主成分分析,简称PCA,是一种常用的数据降维方法,是多元统计分析中的一种技术。PCA可以通过线性变换将多维度的数据转变为少数几个不相关的主成分,从而达到减少数据冗余的目的。 在PCA中,首先需要进行的就是数据标准化,以使得各指标数据具有相同的量纲和均值为0的特征,从而排除各个指标因为数据规模、单位的不同而导致的影响。然后,通过协方差矩阵对数据进行分析,找出最大的特征值及其对应的特征向量,即为第一主成分。接着,通过正交变换找到第二个最大的特征值以及其对应的特征向量,即为第二主成分。以此类推,直到取得所有主成分。 利用PCA进行数据降维的过程是,对原来的高维数据进行降维,找到其中最具有代表性的主成分,并优先保留主要信息,使得维度降低后的数据尽可能多地包含源数据信息。在降维后的数据中,利用PCA算法可以利用较少的变量描述数据,从而使得数据变得更加简洁易于处理。同时,PCA还有一个附带效应,就是可以减少数据的噪音以及数据的冗余,使得新的数据更具有可解释性。 总之,PCA是一种常用的处理大量数据的方法,可以更好地理解和分析数据,提高数据分析的准确性和效率,并加快大规模数据的处理过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值