
AI
文章平均质量分 50
accosmos
这个作者很懒,什么都没留下…
展开
-
PCA和SVD数据降维
PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。原创 2023-10-08 14:08:19 · 1147 阅读 · 0 评论 -
正交对角化,奇异值分解
与普通矩阵对角化不同的是,正交对角化是使用正交矩阵对角化,正交矩阵是每列向量都是单位向量,正交矩阵*它的转置就是单位矩阵。与普通矩阵对角化一样,正交对角化的结果也是由特征值组成的对角矩阵。成立的正交矩阵V,V是由特征向量的单位向量组成如果特征向量是。本质还是特征向量对原矩阵的拉伸,收缩。B为特征向量的正交矩阵,对角化为。的特征值来求,和上面的V一样。A为特征向量矩阵,对角化为。下面用奇异值分解来举个例子。上面两个的结果是一样的。原创 2023-09-27 16:10:12 · 650 阅读 · 0 评论 -
基变换与矩阵对角化
结果一定是对角矩阵,因为此变换本质只涉及拉伸,所以一定是对角矩阵。基变换矩阵是特征向量构成的,而特征向量是当前空间进行中间矩阵变换时不空间不变化的向量。所以把当前空间的变换转换到特征基的空间后,变换就变成了对基的放缩操作,也就是特征值构成的矩阵。中映射只会发生拉伸,翻转,所以将特征向量作为基,进行基变换,特征向量为。特征向量是当基向量进行旋转,剪切,拉伸等操作后保持不变的向量。,变换过程中只发生拉伸,翻转操作的向量为特征向量。,则需要先将其转换为我们向量空间中显示,即。矩阵乘法的本质是映射坐标。原创 2023-09-21 11:58:53 · 435 阅读 · 0 评论 -
FP树 高效发现频繁项集
这样找频繁项集的支持度只需要找路径就好了。剔除支持度=1的,再排序。原创 2023-09-20 11:48:18 · 379 阅读 · 0 评论 -
apriori 生成关联度算法
a->ab,当a存在时ab的出现概率为p(ab)/p(a)=2/3。现有一个集合L={a,a,a,b,b,b,ab,ab}p(a)为a的个数/总数=3/8。原创 2023-09-20 09:00:22 · 256 阅读 · 0 评论 -
聚类-kmeans
例如现在只有一个簇A,第一轮分裂成A,A1,下一次比较A,A1两个分裂的结果哪个更换,比如A1更好,所以分裂结果为A,A1,A11。聚类算法是无监督学习算法,指定将数据分成k个簇。然后通过每个点到各个簇的中心的欧氏距离来分类。二分kmeans是遍历所有的簇,将其分成2个,比较哪一个分裂结果更好,用距离和来代表误差。kmeans本身会陷入局部最小值的状况,二分kmeans可以解决这一点。原创 2023-09-13 17:03:17 · 480 阅读 · 0 评论 -
树回归CART
之前线性回归创建的模型需要拟合所有的样本点,但数据特征众多,关系复杂时,构建全局模型就很困难。之前构建决策树使用的算法是ID3。ID3 的做法是每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来切分。也就是说,如果一个特征有 4 种取值,那么数据将被切分成 4 份。一旦按照某特征切分后,该特征在之后的算法执行过程中将不会再起作用,所以有观点认为这种切分方式过于迅速。另外一种方法是二元切分法,即每次把数据集切分成两份。原创 2023-09-12 13:56:54 · 374 阅读 · 0 评论 -
回归 Regression
与线性回归不同的是,逻辑回归由于其联系函数的选择,它的参数估计方法不再使用最小二乘法,而是极大似然法。之前讲的逻辑回归是处理分类问题,而线性回归是处理连续问题。读入数据,将数据特征x、特征标签y存储在矩阵x、y中。,极大似然法的思想也是如出一辙的,但是它是通过。用一个基本例子验证,然后用数学归纳法证明。对w求导,令其=0,找出最小loss。相乘,然后求导,不难看出公式是正确的。同样此公式也可以用公式1的例子验证。来最小化预测和实际之间的“距离”。分子是列向量,分母是行向量。分母是列向量,分子是行向量。原创 2023-09-11 11:58:36 · 428 阅读 · 0 评论 -
逻辑回归Logistic
因此,为了实现 Logistic 回归分类器,我们可以在每个特征上都乘以一个回归系数(如下公式所示),然后把所有结果值相加,将这个总和代入 Sigmoid 函数中,进而得到一个范围在 0~1 之间的数值。所以,Logistic 回归也是一种概率估计,比如这里Sigmoid 函数得出的值为0.5,可以理解为给定数据和参数,数据被分入 1 类的概率为0.5。如果目标函数是似然函数(Likelihood function),就是要最大化似然函数来求函数的最大值,那就用梯度上升。因此,对应的公式可以写成。原创 2023-09-03 08:50:20 · 710 阅读 · 0 评论 -
朴素贝叶斯
意思是cx都发生的概率=x发生的概率乘以x发生的情况下c发生的概率。c,x不独立时,p(cx)=p(c|x)p(x)贝叶斯理论一个重要的概念是条件概率。原创 2023-09-01 15:44:31 · 203 阅读 · 0 评论 -
决策树(Decision Tree)
信息熵 下面正式引出信息熵:信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量 x 的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?假如有两个不相关事件,x和y,两个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和,即:h(x,y)=h(x)+h(y)代表随机事件x的概率。原创 2023-09-01 13:02:19 · 1108 阅读 · 0 评论 -
KNN(k邻近)
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k 个实例,这 k 个实例的多数属于某个类,就把该输入实例分为这个类。优点: 精度高、对异常值不敏感、无数据输入假定。缺点: 计算复杂度高、空间复杂度高。适用数据范围: 数值型和标称型。原创 2023-08-31 16:58:16 · 114 阅读 · 0 评论 -
提升方法AdaBoost算法
弱分类器可以是多层决策树,内部原理应该是先分第一层,然后遍历所有特征值,分第二层,然后再遍历未使用的特征值,分第三层。大概流程是首先建立一个弱分类,然后计算其错误率,根据错误的样本数给样本分配权重,然后再根据这个样本权重去计算新的最小分类错误率,以此类推,直到所有分类器权重*样本==label。根据D来计算每个特征值的错误率即 wD=D*Error(error表示划分的数据集错误率),从中选择一个最好的划分(最好的预测结果为G(x),特征列i,特征值,minerror)表示的是弱分类器的权重*其分类结果。原创 2023-08-31 15:51:29 · 203 阅读 · 0 评论 -
随机森林random forest
大概意思是,从训练集中随机抽样n个,然后将这n个组建成树,树按照特征值来划分左右树,寻找最优分类的左右树,按照Gini指数的计算问题,假如将原始数据集D切割两部分,分别为D1和D2,则Gini(D|切割)=(|D1|/|D|)*Gini(D1)+(|D2|/|D|)*Gini(D2)。gini越小,数据分类越准确。这算法没什么好讲的,比较简单。原创 2023-08-24 14:14:37 · 190 阅读 · 0 评论 -
FTT续写之范德蒙逆矩阵
求范德蒙逆矩阵也是一个大坑,用到的数学知识也很重要,拉格朗日插值法,最重要是代数基本定理写的有点丑陋,代数基本定理可以自己尝试证明下。虽然整个推导流程清晰明了,但是一些细节让人头疼,比如分解时候用到泰勒展开。原创 2023-08-22 14:19:51 · 125 阅读 · 0 评论 -
SVM详解
公式太多了,就用图片用笔记呈现,SVM虽然算法本质一目了然,但其中用到的数学推导还是挺多的,其中拉格朗日约束关于α>0这块证明我看了很长时间,到底是因为悟性不够。对偶问题也是,用了一个简单的例子才明白,事实上,从简单的例子进行来理解更复杂的东西确实很舒服。核函数这块主要是正定核函数的证明需要看一下,K(x.z)=I(x)*I(z),先升维再求点积=先点积再升维。最后SMO,经典中的经典,看的我头疼,最主要的就是公式的推导。以上为jupyter实现。原创 2023-08-22 11:56:12 · 854 阅读 · 0 评论