
机器学习
文章平均质量分 89
奔跑的犀牛先生
男人至死仍少年--人的一切痛苦本质上都是对自己无能的愤怒
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【小白学机器学习42】试验--随着样本容量增加,样本的均值的均值趋向总体,均值的方差减小。而样本的std的均值也是同样效果。
进行多次抽样,样本的分布参数和总体的分布参数的关系。原创 2024-11-29 19:13:02 · 782 阅读 · 0 评论 -
【小白学机器学习41】如何从正态分布的总体中去抽样?比较不同的取样方差的差别
【代码】【小白学机器学习40】如何从正态分布的总体中去抽样?获得指定正态分布的样本的2种方法。原创 2024-11-29 17:09:19 · 762 阅读 · 0 评论 -
【小白学机器学习40】用各种方法去验证总体的数据
h0假设:往往是那个好计算的假设,比如符合正态分布,两数相等等这种作为h0假设。我们直接用sp.stats.norm.pdf,生成一个正态分布的pdf曲线。# 画出一个特殊的正态分布的pdf曲线,其均值,方差=总体的均值,方差。h1假设,往往是那些不好计算的,比如,不是XX分布但是什么分布呢?然后,我们看看,这个pdf和总体的hist是否比较拟合。但是这个概率曲线,特点是均值,方差=总体的均值,方差。原创 2024-11-29 12:25:31 · 1257 阅读 · 0 评论 -
【小白学机器学习39】如何用numpy生成总体,生成样本samples
首先也不一定是正态分布也可能是正态分布,幂律分布等等即使不是正态分布,也要假设总体服从某种分布!原创 2024-11-28 18:20:19 · 932 阅读 · 0 评论 -
【小白学机器学习38】用np.random 生成各种随机数,随机数数组/序列
np.random() 主要是生成符合各种要求的随机数比如[0,1)符合某分布,正态分布,二项分布等指定某区间内随机等,比如(a,b) 之间,或者在某个array([1,10,99]) 之间np.random() 可以不指定size,就只生成一个随机数。如果像生成一个数组,np.random() 都接受 size=10 这个参数,方便生成多个符合要求的随机数,一个数组size参数不是必须的,如果没有默认就是只生成1个随机数。原创 2024-11-28 14:25:47 · 1421 阅读 · 0 评论 -
【小白学机器学习37】用numpy计算协方差cov(x,y) 和 皮尔逊相关系数 r(x,y)
用python处理协方差 和 皮尔逊相关系数。原创 2024-11-27 15:08:44 · 1340 阅读 · 0 评论 -
【小白学机器学习36】关于独立概率,联合概率,交叉概率,交叉概率和,总概率等 概念辨析的例子
关于独立概率,联合概率,交叉概率,交叉概率和,总概率类型含义计算联合概率两个独立事件一起发生的概率两个事件概率相乘边缘概率同1行 /同1列的所有联合概率相加的总和两个联合概率相加条件概率一定已知条件下发生的概率两个事件的联合概率/已经发生的概率。原创 2024-11-26 12:04:57 · 611 阅读 · 0 评论 -
【小白学机器学习35】数据表:整洁数据表,交叉表/列联表,以及两者转化pd.pivot_table()
我的想法:整洁数据表:更底层:适合作为原始数据,输入后,进行各种分析各种上层的表现表形式:交叉数据表,本身就是在整洁数据表的一种加工,是一种输出形式!其他数据表表现形式。原创 2024-11-26 11:38:35 · 652 阅读 · 0 评论 -
【小白学机器学习34】基础统计2种方法:用numpy的方法np().mean()等进行统计,pd.DataFrame.groupby() 分组统计
其实四分位数,就是 0%,25% ,50%,75%,100% 这5个点组成的四个均等1/4长线段本身0%,100% 就是min 和 max新加25% ,50%,75% 即可区分4个1/4四分位的线段。原创 2024-11-25 15:16:55 · 1542 阅读 · 0 评论 -
【小白学机器学习33】 大数定律python的 pandas.Dataframe 和 pandas.Series基础内容
特殊之处:默认带一个序号列可以认为是带 序号的 数组/列表data:输入的数据,可以是列表、常量、ndarray 数组等。index:索引值必须是唯一的,与data的长度相同,默认为np.arange(n)dtype:数据类型copy:是否复制数据,默认为false。原创 2024-11-22 18:41:53 · 1039 阅读 · 0 评论 -
【小白学机器学习32】 大数定律python基础回顾:基础语法,列表list, 数组np.array(), 以及 pd.Series() 和pd.Dataframe()
进一步,可以用np.array()生成pd.Series pd.DataFrame()data:可以是多种形式的数据,包括字典、二维数组、列表、系列、字典的字典或数据帧。copy:布尔值,默认值为 False。如果为 True,强制拷贝数据。可以用list 生成np.array()columns:列标签,用于索引列。index:行标签,用于索引行。dtype:数据类型,可选。原创 2024-11-22 15:57:09 · 703 阅读 · 0 评论 -
【小白学机器学习31】 大数定律,中心极限定理,标准正态分布与概率的使用
关于正态分布,具体应用。原创 2024-11-01 12:12:26 · 990 阅读 · 0 评论 -
【小白学机器学习30】样本统计的核心参数:均值/期望,方差,标准差,标准值。
单个偏差:某偏差=某数据-平均值总偏差: 然后把所有的偏差加和起来,就是总的偏差偏差和=Σ(各数据-平均值),会导致互相抵消偏差的绝对值的和=Σ(|各数据-平均值|) ,理论上可以,但是使用的比较少。偏差平方和=Σ(各数据-平均值)^2方差=偏差平方和/N=Σ(各数据-平均值)^2/N。原创 2024-10-31 18:28:13 · 1208 阅读 · 0 评论 -
【小白学机器学习29】 概率统计与图形 ( hist, bar, pie , box ,scatter ,line)
每个饼分位多个分块,每个分块大小不同,每个分块还可以分尖端和后面2部分。根据饼状图来的,南丁格尔玫瑰图。频度分布表:概率分布的雏形吧。原创 2024-10-31 17:11:04 · 704 阅读 · 0 评论 -
【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法
我们自己当然可以自己定义一个我们全知的“整体”在这个角度,我们就是上帝但是这个知识“题目”“模型”“思想试验” ,我们可以在我们定义的世界里有上帝视角,这不奇怪。就和做题!= 解决社会上的真实问题一样,这些整体,一般并不是我们要面对的生活中的自然的/社会上的真正整体。类比的例子定距数据里,比如摄氏度,身高,我们也可以进行* /,因为我们预设了一个0点,温度0,身高0。那为什么说定距数据里,进行* /运算没有意义?原创 2024-10-31 16:13:38 · 1087 阅读 · 0 评论 -
【小白学机器学习27】 费希尔的案例:某女士是否真的可以分辨奶茶里是先放了牛奶还是红茶呢? 具体概率多种计算方法
如此之低的概率显示, 这位女士确实有某种方法可以分辨奶茶的冲泡方法. 女士究竟是如何做到这一点的, 英国皇家化学协会在2003 年发表的一篇十分具有娱乐精神的官方报告《一杯完美红茶的冲泡方法》, 或许给出了答案.在《试验设计》中, 并没有记录女士回答的结果和试验的结论. 但是, 据当时也在场的另一位统计学家H. 费尔菲尔德·史密斯回忆, 那位女士的回答全部正确.由此可见, 除了费希尔之外的绅士们, 认为"不管顺序怎样, 化学性质都不会改变" 的想法似乎是错误的.1 神奇的人,神奇的能力?原创 2024-10-31 14:36:45 · 1086 阅读 · 0 评论 -
【小白学机器学习26】 极大似然估计,K2检验,logit逻辑回归(对数回归)(未完成----)
定义:在现实已经发生的基础上,去回溯到过去,推测过去的某个时刻,自然量和因变量是什么样的关系时,现实的发生概率最大?这个推测过程,就是极大似然估计过去最大概率对应的那个分支,极有可能就是现实!现实就是,过去发生的各种可能里概率最大的那种情况!原创 2024-10-29 17:26:30 · 1529 阅读 · 0 评论 -
【小白学机器学习25 】 用交叉表去理解自由度的计算
名字:Cross tabulation Cross-tabulation Crosstabulation交叉表,简单的说,就是2个变量形成一张 纵横的表格,中间交叉的地方是数据点。也就是一般意义上的一张二维表,比如典型的EXCEL从上面表上可以看出,去掉1行,去掉一列后的交叉表相乘的结果刚好= 自由度df。原创 2024-10-29 13:42:25 · 886 阅读 · 0 评论 -
【小白学机器学习24】 用例子来比较:无偏估计和有偏估计
估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。无偏估计常被应用于测验分数统计中。下面是我自己搞的一个简单推理过程。原创 2024-10-25 17:05:02 · 1191 阅读 · 0 评论 -
【小白学机器学习23】 如何理解:只有这个数据本身时,用平均值mean来预测是最准,误差最小的?
如果只有这个数据本身时,没有其他数据,只有1个维度/ 1个变量的数据进行预测一定是 平均值预测的总体误差更小(总体更准确)经过上述比较,证明了,用mean预测下一个值,总体误差和一定最小。随机取样,需要每个元素有平等的机会,而不是随便取样!设计一个总体:在min~ max 产生一堆随机值。下面是我自己搞的一个简单推理过程。明显mean预测的tss最小。原创 2024-10-25 16:50:56 · 1199 阅读 · 0 评论 -
【小白学机器学习22】 多变量分析:相关性分析,多变量回归,最小二乘法ols
自变量: DV ,dependent variable因变量: IV, Independent variable。原创 2024-10-24 19:14:08 · 2129 阅读 · 0 评论 -
【小白学机器学习21】 理解假设检验的关键:反证法
整个方法就是,反证法的思想先有研究假设=H1假设,是我们想证明的目的故意设立一个假设H1的否命题为H0假设 null hypthesis,H0假设一般都是两者没有关系,相关系数=0这种混沌的,未知的模式[欲擒故纵]而且假设H0是对的[诱敌深入]再H0假设是正确的前提下,往下推论,因为理论上有可能H0是对的或错的,但是无论对错,结果是我们现在都已有手上的样本。如果H0是对的,而能得出手上这种样本的可能性很大,那么H0确实就对的,我们的科研意图破产。原创 2024-10-24 18:55:18 · 853 阅读 · 0 评论 -
【小白学机器学习20】单变量分析 / 0因子分析 (只分析1个变量本身的数据)
本质:就是只分析1个变量数据本身就是只分析一个变量的数据,就是单变量分析。如果非要,统一说成是那种回归模型/因果分析模型/相关分析的话,这个就算是0因子分析。一维数据图:图上无论是画成1条轴,或者2条轴,实际只有1个变量的数据二维数据图:有2条轴,且实际确实有2个变量!原创 2024-10-24 18:42:04 · 964 阅读 · 0 评论 -
【小白学机器学习19】统计基础:什么是定量分析,量化的4个层级,因果关系分类等
量化分析:就是把要分析的一个真实事物/理念中概念:变项,进行数字化,从而成为一个变量 variable,然后分析这个变量。建模:简单的就是建一个函数表达式 /一个方程等,复杂的,很多函数和方程组联立等等超过我的描述能力。原创 2024-10-21 14:44:18 · 1554 阅读 · 0 评论 -
【小白学机器学习18】 为什么1类错误+2类错误的和不是1
目录1 样本的结构和数量越接近总体越大,第1类错误和第2类错误都会变小2 第1类错误和第2类错误,确实存在此消彼长得关系3 第1类错误+第2类错误 !=100%原创 2024-10-21 14:34:59 · 425 阅读 · 0 评论 -
【小白学机器学习17】 概率论的认识论和方法论
个体是1个,总体理论上无限。只能通过抽样把1个个个体变成一个特殊的有很多数量的样本,假设这个样本是和总体同构的,从分析样本去推测总体!没有抽样,分析样本这个中间步骤,永远无法从个体认识总体。初始条件:全集条件,子集条件,结论。这种方式,看着好像,更简略了,从原因到结果,更本质。因为,人都爱玩,男人也是人,所以男人也爱玩。个体----样本------总体。2 关于老子的,一生二,二生三,三生万物。1 关于三段论,黑格尔的哲学和逻辑。其实三段论的更符合人的思维逻辑。三段论的引申,巧合?原创 2024-10-21 14:24:25 · 429 阅读 · 0 评论 -
【小白学机器学习16】 概率论的世界观2: 从正态分布去认识世界
正态分布,概率论都是一种世界观。原创 2024-10-21 14:16:32 · 767 阅读 · 0 评论 -
【小白学机器学习15】 概率论的世界观
万物皆可能,无物是必然原创 2024-10-21 14:12:11 · 1234 阅读 · 0 评论 -
【小白学机器学习14】确定零假设h0的技巧:先根据错误的严重程度确定第1类错误α,再确定零假设h0
关于如何确定假设H0,我一直比较困惑,经过最近的总结和思考,我摸索到一条规律,哪就是先确定,什么是我们最不愿意接受的错误,把这个作为第1类错误,然后就可以顺利的确定H0假设了。原则:先根据那种错误更严重,来确定第一类弃真概率更重要这个原则,然后来确定H0因为第1类错误和第2类错误,往往是此消彼长,不能同时都降到最低‘先判断两类里,哪一类是我们最不能接受的错误误差所以我们只能选择,优先降低我们最不能接受的错误误差,当成第1类错误/弃真错误然后顺势就可以确定H0step1:先确定第1类错误。原创 2024-04-18 13:31:35 · 1813 阅读 · 0 评论 -
【小白学机器学习13】一文理解假设检验的 原假设/零假设H0是如何设计的?
关于假设检验里H0的设计,原理思考原创 2024-04-17 20:33:33 · 5368 阅读 · 1 评论 -
【小白学机器学习12】假设检验之3:t 检验 (t检验量,t分布,查t值表等)
与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。在概率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。查t界值表中自由度为n-1,双侧α,如果是双边检验,那么查到的t(α/2, n-1)查t界值表中自由度为n-1,双侧α,如果是单边检验,那么查到的t(α, n-1)然后查到的t值,作为比较的参数指标。原创 2024-04-08 11:06:40 · 5996 阅读 · 0 评论 -
【小白学机器学习11】假设检验之2:Z检验(U检验,正态检验),Z检验量,Z分布,如何查表获得p值
也叫U检验,正态检验目的是:比较样本的平均值的差异,也可以叫 均值齐性检验前提假设,不同的样本都符合正态分布,标准正态分布?Z检验,也称“U检验”,是为了检验在零假设情况下测试数据能否可以接近正态分布的一种统计测试。根据中心极限定理,在大样本条件下许多测验可以被贴合为正态分布。在不同的显著性水平上,Z检验有着同一个临界值,因此它比临界值标准不同的学生t检验更简单易用。当实际标准差未知,而样本容量较小(小于等于30)时,学生t检验更加适用。原创 2024-04-07 20:41:07 · 9768 阅读 · 0 评论 -
【小白学机器学习10】假设检验之1:F检验,F检验量的构造,F分布,F分布查表求P值等
F检验临界值表提供了右尾F检验的临界值。当F检验的统计量大于该值时,我们的F检验结果在统计上是有意义的。F检验 (F-test),亦称联合假设检验(joint hypotheses test)、方差比率检验、方差齐性检验。它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计总体。原创 2024-04-07 17:22:11 · 12398 阅读 · 3 评论 -
【小白学机器学习9】用EXCEL做一元线性回归的各种指标,笨办法:各种结果的指标解析和手动验算
目标:用EXCEL做一元线性回归的各种参数,手动计算验证EXCEL计算的各个参数的值,自己重新算一遍,了解具体的公式计算过程。为什么要这么做看了这么多讲指标运算公式的,大多数都是推导。但很少见到有自己手动,完全验证一遍这些指标计算公式实操的,我自己试试。目的2个:还能验证自己整理的公式的对错。可以加深对公式的理解原创 2024-03-14 13:41:32 · 12361 阅读 · 0 评论 -
【小白学机器学习8】统计里的自由度DF=degree of freedom, 以及关于df=n-k, df=n-k-1, df=n-1 等自由度公式
自由度通常用于抽样分布中。统计学中:在统计模型中,自由度指样本中可以自由变动的独立不相关的变量的个数,当有约束条件时,自由度减少。样本中独立或能自由变化的数据的个数,称为该统计量的自由度。自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。原创 2024-03-12 20:37:35 · 5589 阅读 · 0 评论 -
【小白学机器学习7】相关系数R,决定系数R2和SST=SSR+SSE, 离差,偏差,方差,标准差,变异系数,标准误。
简单相关系数:又叫相关系数或线性相关系数一般用字母r表示,用来度量两个变量间的线性关系。相关度:相关度又叫 皮尔逊相关系数 (Pearson Correlation Coefficient),衡量两个值线性相关强度的量取值范围 [-1, 1]: 正向相关: >0, 负向相关:原创 2024-03-06 08:00:00 · 5206 阅读 · 0 评论 -
【小白学机器学习6】真实值,观测值,拟合值,以及数据的误差的评价:集中趋势,离散度,形状等
集中趋势(central tendency):集中趋势反映了一组数据的中心点位置所在及该组数据向中心靠拢或聚集的程度。(描述数据中心)适合查看符合正态分布等数据。如果数据本身比较偏,看集中趋势意义大吗?原创 2024-03-04 16:26:47 · 2981 阅读 · 0 评论 -
【小白学机器学习5】评价预测值和观测值差异的指标:MSE, RMSE,MAE, MAPE, WMAPE
偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。方差:描述的是预测值的变化范围,离散程度,也就是离其(预测值整体)期望值的距离。方差越大,数据的分布越分散预测值和真实值完全没关系。方差小只是一群估计值自身的属性,够不够聚拢,发散是否厉害。有可能方差很大也可能很小,但偏离真实值很远的情况。简单的理解,范式就是距离L1 范式距离,就是 |y1-y2|L2 范式距离,就是 (y1-y2)**2以下类推像我现在的水平,暂时了解到这么多即可。原创 2024-02-29 13:52:14 · 8133 阅读 · 0 评论 -
【小白学机器学习4】从求f(x)的误差和函数E(θ)的导函数,到最速下降法,然后到随机梯度下降法
所以问题从需要比较比较不同的 f(x) 之间的E(θ)差别,变成了比较 通用的函数形式里 参数θ0,θ1... 等对误差和函数E(θ)的影响。参数 A1的第1行*B的第1列作为元素1。先从最简单的一元函数开始,其中最简单的是1元1次函数。为了使用矩阵强行加1个参数x0=1。参数向量 结果矩阵。数据1 1 x。数据2 1 x。数据3 1 x。数据4 1 x。没有求和Σ 这个步骤。原创 2024-01-23 20:45:35 · 1115 阅读 · 2 评论 -
【小白学机器学习3】关于最简单的线性回归,和用最小二次法评估线性回归效果, 最速下降法求函数的最小值
从时序数据来看,从过去数据去分析,生成1个模拟曲线。然后用这个模拟曲线去,用新的 x 去预测新的数据线性,就是指直线从线性代数的角度来看,就是这些向量是否线性相关,如果线性无关就是共线。线性回归,就是回归分析的模拟曲线是直线。原创 2024-01-22 16:08:10 · 1320 阅读 · 0 评论