
查漏补缺
文章平均质量分 86
Shian150629
02.15起,于优快云每周查看消息回复
展开
-
充分降维的基本概念与理解
1. 充分降维的概念本章笔记来自wiki,符号与论文统一1.1. 概要在统计学中,充分降维(SDR)是一种分析数据的范例,它结合了降维的思想和充分性的概念。有响应变量YYY和预测变量XXX。回归分析就是去学习Y∣XY|XY∣X的分布。也就是给定XXX求YYY的条件分布E(y∣X=x)=E(a+bx+ϵ∣X=x)=a+bxE(y|X=x)=E(a+bx+\epsilon|X=x)=a+bxE(y∣X=x)=E(a+bx+ϵ∣X=x)=a+bx降维就是一个函数R(X)R(X)R(X),把XXX映射原创 2021-04-30 17:36:10 · 3120 阅读 · 3 评论 -
各类范数定义速查;奇异值与特征值
1. 向量范数P-范数:∥x∥p=(Σ∣xi∣p)1/p\|x\|_p=(\Sigma|x_i|^p)^{1/p}∥x∥p=(Σ∣xi∣p)1/p。matlab调用norm(x,p)。norm(x)默认为二范数,也就是欧几里得范数∞\infty∞-范数:∥x∥∞=maxi∣xi∣\|x\|_{\infty}=\mathop{max}\limits_i|x_i|∥x∥∞=imax∣xi∣。matlba调用为norm(x,inf)−∞-\infty−∞-范数:∥x∥−∞=mini∣xi∣\|x原创 2021-04-21 08:01:23 · 2056 阅读 · 0 评论 -
使用matlab中PCA包进行训练集与测试集处理
使用matlab中PCA包进行训练集与测试集处理1. matlab中PCA包的使用与分析2. 训练集与测试集降维处理1. matlab中PCA包的使用与分析[coeff, score, latent ] = pca(X);其中,X∈Rn×mX \in\mathbb{R}^{n\times m}X∈Rn×m。n = #sample,m = #feature。而获取到的有:coeff :特征向量。每一列表示一个特征向量。并按特征值从大到小排序score :新数据。使用PCA后的数据表示,大小和X一致原创 2021-03-19 22:15:32 · 2270 阅读 · 4 评论 -
Shapiro–Wilk test
该检验是一个正态性检验的频率论统计。该检验的零假设是总体呈正态分布。因此,如果p值小于所选的alpha级别,则原假设被拒绝,并且有证据表明所测试的数据不是正态分布的。另一方面,如果p值大于所选的alpha级别,则不能拒绝原假设(数据来自正态分布的总体)(例如,对于.05的alpha级别,数据集如果p值小于.05,则拒绝原假设(数据来自正态分布的总体)。像大多数统计显着性检验一样,如果样本量足够大,则该检验甚至可以检测到原假设的微不足道的偏差(即,尽管可能具有统计学上的显着影响,但可能太小而没有任何实际意原创 2020-11-09 08:25:11 · 3029 阅读 · 0 评论 -
核密度估计KDE与直方图的易错点
1. 直方图Python中直方图Y轴有多种。其中,(标准)直方图的Y轴是频数。X轴上的每一段,是一个分组。有每个分组的数据量 = 组距*频数例如,在对比图中,直方图的高分别为1/12,2/12,1/12,0,1/12,1/12.宽度为2.图源来自WIKI。在python3中,norm_hist为True,则直方图的高度默认为密度,而非count(次数)。在含有KDE的图像中,默认为True。用于概率密度的直方图的总面积始终归一化为1。2.KDE 核密度估计核函数就不介绍了,太多了。KDE就原创 2020-11-07 19:56:29 · 2219 阅读 · 0 评论 -
tips:MATLAB如何计算协方差矩阵
1.源码阅读使用open cov阅读MATLAB源码。别看前面的注释,容易混2.原理MATLAB输入矩阵X是m*n大小。请注意:m是#features,n是#samples。计算的主要代码是:xc = x - sum(x,1)./m; % Remove meanc = (xc' * xc) ./ denom;denom为m-1(m>1)或m(m = 1)。非常有意思的是:a.先移除均值&移除均值的方式;b.denorm 是用来normlize.参考之前的文章,应原创 2020-11-03 08:26:47 · 12236 阅读 · 0 评论 -
R tips:scale 如何使用
简介scale 是通用函数,其默认方法中心化和/或标准化矩阵的列。使用scale(x, center = TRUE, scale = TRUE)进行调用参数分析参数分析x一个数据矩阵(比如一个对象)center确定如何执行中心化。是一个逻辑值或长度为x 的列数的类似数字的向量。如果为TRUE,那么通过减去列均值进行中心化。为否,那么不进行该操作scale在“中心化”后,确定如何执行标准化。如果scale是一个类似数字的向量,其长度等于的列数x,则x每一.原创 2020-08-06 11:27:08 · 942 阅读 · 0 评论