- 博客(100)
- 收藏
- 关注
原创 从0开始学习R语言--Day41--Moran‘s I
在处理带有空间特征的数据,我们往往都直接一股脑地处理数据点,但很多时候,空间上的信息对于处理后续衍生出来的问题会有很大帮助,例如对于城市里大小县城的发展情况,只知道单一县城的经济发展曲线,很难解释一些拐点和突然的攀升,而如果知道相邻县城存在经济发展飞快的例子,可能就是被带动了经济水平;亦或者是在处理社交网络的好有问题时,只知道谁和谁是朋友(类似于空间矩阵),是无法推断出经济收入相似的推论的,所以说,空间属性与数据本身相结合去分析,能有助于剖析更深层次的结论。
2025-07-08 23:48:04
54
原创 从0开始学习R语言--Day40--Kruskal-Wallis检验
我们在处理小样本的数据时,常常会遇到一种问题便是,由于样本的数据量很少,到底是该手动对比以便更灵活地控制变量,还是用excel、status或R中的方法对其进行操作呢。事实上,有时候数据少并不意味着对比的工作量就少了,因为在对比时,即使是最小的两两对比,就算是5组也需要10次对比,这还是不出错的情况,且我们还需要一个对数据整体上的评估。从结果来看,每组比较都是比较显著,差异最大的是CD组,从整体来看,D组和其他组的差异较大。
2025-07-07 00:11:18
140
原创 从0开始学习计算机视觉--Day08--卷积神经网络
这里的改变的地方是对于同样的WX的函数形式,这里是把5×5×3的权重矩阵(也叫卷积核)向量化了,从而做的是向量点积运算(可以看到权重矩阵的写法与图片的数据量写法类似,这是为了更好地理解为什么选择这个数量,可以把输入和权重矩阵看成是放缩的一个过程,权重矩阵由于空间结构类似,相当于是保留了图片原有的一部分性质,在数学角度上是因为向量的点积与两个向量的夹角有关,夹角越小,向量越相似,这也与卷积层的初衷相符,是为了尽可能地保留输入的信息不缺失)。越往后排的衍射值,对应的是更高级的特征。
2025-07-07 00:10:11
314
原创 从0开始学习R语言--Day39--Spearman 秩相关
在非参数统计中,不看数据的实际数值,单纯比较两组变量的值的排名是通用的基本方法,但在客观数据中,很多变量的关系都是非线性的,其他的方法不是对样本数据的大小和线性有要求,就是只能对比数据的差异性,而不能展示这种非线性的单调性,比如想知道练习时间与游戏段位的关系,虽然从结果上看是正相关,但在过程中的体现可能是进步速度非常快后趋于稳定,其他的函数方法会漏掉这种细节。而图像显示,如果用一般的方法,直接用线性函数去拟合,会忽略实际数据中弯曲的分布,即不知道数据在实际中的增长方向,会对后续数据的加工使用造成错觉。
2025-07-06 00:26:28
136
原创 从0开始学习计算机视觉--Day07--神经网络
当我们输入的变量是一个比较大的向量(比如有4096项),函数是求返回输入的最大值,要求的权重矩阵的梯度就是4096 * 4096的大小,而实际上我们的输入往往都不只有一个向量,那如果向量有一百个的话,是否就意味着要求的矩阵达到了409600 * 409600的大小呢?
2025-07-06 00:25:39
267
原创 从0开始学习R语言--Day38--辛普森多样性指数
面对数据特点为不同种类,但具有不同影响的数据,需要根据需求侧重使用不同的方法。而相比其他方法,辛普森多样性指数在分类时就已经计算出了哪个数据是优势的概率更大,而其他的方法一般都倾向于判断种类稀有度,即判断类别的数据量,会多出很多计算量。输出表明,随机抽取两个个体属于同一物种的概率为0.2337,也就意味着这个数据的多样性较高,用1减去概率的方式能更明显地展现结果。逆指数代表着均匀分布的水平线,如果实际物种数大于该值,则说明存在优势物种,而香浓熵的结果代表物种为中等多样性,满足稀有物种的保护需求。
2025-07-04 23:23:53
166
原创 从0开始学习R语言--Day37--CMH检验
对于有多个特征的数据,我们一般的处理方式是构建特征函数,计算每个特征向量的系数,从而将其影响纳入到研究量中,但对于简单的问题,也这样做的话未免有点小题大做。这时我们可以考虑用CMH来分析变量在每个特征下的影响,这个方法可以通过分层控制不同的无关特征和变量,凸显变量真实的关联关系。从输出可以看到,在Middle和Old组药物B更有效,Young组则是药物A,而检验的结果p为0.0005,说明在调查年龄分组后,药物与疗效的关系十分显著,而公共比值则意味着使用药物B的患者获得改善的几率是药物A的0.59倍。
2025-07-03 23:34:09
295
原创 从0开始学习R语言--Day36--空间杜宾模型
从输出中可以看到,X1,X2的p值小于0.001,说明其结果显著性较高,在直接效应上呈线性关系,而X1的间接效应的p也是小于0.001的,说明X1的空间溢出对Y有增益(值为正即为增益),而X2的大于0.001,所以不纳入考虑,整体来看,X1对于Y不管是直接还是间接影响都较大,,而X2的整体p大于0.001,说明其总效应不显著。观察离散变量时,用马尔科夫链可以有效突出其峰值以及细节变化,但对于连续变量,我们更需要考虑的是变量间的关系,而不是其自身状态变化。且如果数据中没有时序条件,是无法应用马尔科夫链的。
2025-07-02 23:54:42
226
原创 从0开始学习R语言--Day35--核密度动态估计
也许很多人对此有疑惑,明明直方图也能看出数据的变化趋势,核密度的图像只是看起来更平滑,把棱角磨掉了而已。但其实,两者有个本质的区别在于,假如直方图对于区间设置的过大或过小,数据的趋势会因此改变,且有可能存在把峰值靠在一起从而忽略掉其中一个的情况,而核密度则会自动平滑掉噪声干扰且会自动选择最佳的区间以尽可能显示数据的所有特点。而不同的核密度估计图,设置的带宽如果比较小,那么会看到很多数据的细节,但容易造成过拟合,过大则容易忽略掉一些转折,一般都采用默认值不去调。
2025-07-02 00:05:48
279
原创 从0开始学习计算机视觉--Day06--反向传播算法
以SVM为例,如果是求梯度,在点乘处直接做偏导就行了,但如果函数并没有那么简单,由很多个不同的点乘和加法构成呢,那么函数只会在最后形成,要求偏导的话,就要用间接的关系,反相传播的意思就是,假如在第一个节点f与A有关,第二个节点A与要求的偏导B和C有关,那么在正向求完每个节点的梯度值后,就可以用f对A的偏导,再乘以A对B和C的偏导,约去分子分母的同项,从而得到该方向上的剃度了。那么也就是说,假如计算过程可以写成计算图的形式,那么计算每种损失函数的微分都可以实现,区别只是快慢。假如我们的损失函数是。
2025-06-30 23:33:12
211
原创 从0开始学习R语言--Day34--空间markov链
事实上,这类客观数据,我们其实可以考虑一下除了历史状态外,邻近区域的影响。比如有的省份隔壁刚刚举办了某大型研讨会,那么该领域的研究人员由于地域便利就可以去那里学习,提高区域内的创新能力,从数据上就可以看到在隔壁区域举行研讨会的后一个月份的论文产出量变高。从输出中可以看到,相比传统的markov链,虽然都是显示有多少的概率往森林、农田或城市方向转移,但运用了邻近区域的地方,比如隔壁是城市的话,会显示转为城市的概率为1,下一步百分百会往城市发展,因为隔壁城市会向外扩张,下一步百分百会往城市发展。
2025-06-30 01:40:13
227
原创 从0开始学习计算机视觉--Day05--优化
所以在实际使用中,步骤通常是先随机分配权重,去计算当前的损失值、梯度以及梯度相反的方向(从梯度计算公式出发,x是向量时,方向导数是梯度和向量的点积,公式里是取夹角的cos值,也就能知道夹角为0度时其取最大值1,所以梯度的方向是增加函数值的方向),从而确定要怎么更新权重,再重复这一步骤知道损失为0。而在下山的过程中,我们通常会根据脚传来的感觉去判断地面凹凸不平的情况,从而选择地势更矮的部分去下山,我们所走的每一步都是往更低的方向走,且由于每次我们都是选择往最矮的方向走,可以节省很多不必要的力气。
2025-06-30 01:37:55
839
原创 从0开始学习R语言--Day33-熵值灰度关联
在涉及到需要对数据进行评估时(药物的效果,手机零件的价格和尺寸,在长达10年的发展中每年的纯利润),单单对不同指标去拟合看起来是一件非常困难的事情,因为需要定义不同指标的权重,这是未知量,而要评估结果的好坏又需要定指标的权重。从输出可以看到,模型给指标2和3分配的权重较大,所以这两个指标的最小最大的差异程度较大,但最优方案的关联度小于0.2,是需要检查是否数据有误的,因为即使做了标准化处理,但计算时的结果应该不影响才对,可能是存在极端值。
2025-06-29 00:56:41
261
原创 从0开始学习计算机视觉--Day05--逻辑斯蒂回归
对分数做了指数化操作方便计算,这样每个分数就有对应的概率(即所在分数的指数除以所有的指数和),从损失值的目的出发,选择log函数是利用了它的单调性,是为了让正确类别的分数尽可能的大,但是损失函数意义又是一个衡量不好程度的指标,所以我们在前面加了一个负号,令其更符合假设。,lambda是超参数,这样的目的是,使得在使用复杂的函数时,令模型选择更简单的W权重矩阵,使得模型不趋于更复杂,同时这样也能减少过拟合的现象(因为模型可能会为了强行拟合训练数据而采用非常复杂的函数形式)。
2025-06-29 00:55:48
389
原创 从0开始学习计算机视觉--Day04--损失函数
在之前我们知道,假设用了10种类别的图片用于训练,将其中一种图片输入模型后,会根据W输出每个类别所对应的分数,但是并不是所属的类别分数就一定高,这时我们把这个W作为输入放入一个函数中,由这个函数根据是否图片对应的类别分数最高,来判断W的好坏,也就是能知道这个W距离真正好的W差了多少,我们把这个函数称之为损失函数(cost function),而不断地输入不同的W来找到损失最小的W的过程,就叫做优化过程。,x和y就是训练集里的像素点数据和图片的标签,f是损失函数,L是输入N个样本后的平均损失值。
2025-06-27 23:42:57
275
原创 从0开始学习R语言--Day32--基尼系数
假设想要分析数据的分布以及研究数据中的特殊部分(如人群中最穷的人或最富的占比),可以尝试用基尼系数去判断。从输出可以更直观地看到,所画出的洛伦兹曲线(横轴是由小到大的数据组数量,纵轴是其所占有的收入)越接近对角线,说明数据的分配越平等,即越接近线性,从而可以在不受具体数值的影响下看到数据的分布特点。基尼系数的好处在于,先对数据进行排序后,按照累次占比基于其权重,由于是分批累次加入数据所看到的影响,所以可以从变量曲线的斜率能够看到数据在人群里哪一部分是能造成较大影响的。
2025-06-27 00:17:27
327
原创 从0开始学习计算机视觉--Day04--线性分类
线性分类器这种识别图片的方法,有点类似于模版匹配,即模型对该类别图片的理解来源于一个模版,如果给出的是货车的图片,模型会尝试求可能得模型的轮廓并得出一个每个类别变体的平均值来作为答案,但这也会导致该类的行向量去判断的准确率降低。与之前用KNN算法进行图片分类不同的是,在这个模型的例子中,不需要将训练的数据集与测试集去一一比对找最相似的类别,相反我们只需要在测试时,有输入图片得到的参数和权重就可以知道图片所属的类型了,这也意味着这个模型可以适配在很多设备上,包括电脑甚至手机。
2025-06-26 00:18:54
285
原创 从0开始学习R语言--Day31--概率图模型
例如医生在给患者做诊断时,有些检查需要耗费的时间很久,但仅仅凭借一些其他的症状,他就可以对病人患某种病有个大概的猜想,从而先做出一些措施来降低风险,毕竟等到疾病真正发生时可能会来不及。从结果可以看到,患者中有无肺癌,咳嗽的概率有明显的不同,这说明咳嗽确实是肺癌的一个重要表现,但反过来,咳嗽的也有可能是其他原因导致的。如果反过来去看因果发生的概率,即咳嗽的人群中患有肺癌的概率,便会发现概率没有想象中那么大,这能辅助我们考虑多种情况。同样的,我们有时候也想要在数据样本不够全面时就能对结果有个大概的了解。
2025-06-25 00:13:52
202
原创 从0开始学习R语言--Day30--函数型分析
但如果数据本身具有时间特性的话,我们可以尝试运用函数型分析,将静态的离散点转为动态过程来分析,即若本来是分析离散点对另一个变量的影响,那么转换后就变为研究一条曲线的变化趋势是否对应了另一个变量的变化特点。比如气温数据分析冰淇淋销量时,只看离散点只能知道气温越高,销量越好,但若看趋势,很可能捕捉到在下午气温会比其他时候更高,卖出更多冰淇淋的特点。图像显示温度按照正弦曲线的趋势波动,但在实际应用中,在画图时一般不推荐用标准化的时间轴,会忽略真实的现实信息,像这里便无法判断时间段指的是一个小时还是12个小时。
2025-06-24 00:04:46
276
原创 从0开始学习R语言--Day29--社交网络分析
在探寻数据之间的关系时,由于数据类型的限制,很多时候我们可以从数据的现实角度出发去选择方法,而不是一昧地从头尝试不同方法去分类。假如我们用的是传染病在市面上的传播路径数据,亦或是病毒对于基因的感染模块,就可以采用社交网络分析的方法,它的原理是类似于我们平时使用软件时会弹出“你可能认识的人”,通过比对非共同好友的共同好友数来判断两人是否认识。而用户5和49拥有一样的共友数量,则说明他们的社交重叠度更高,更有可能是认识的,从图中也能看到靠的更近。
2025-06-23 00:26:26
171
原创 从0开始学习计算机视觉--Day03--K近邻算法
如果我们碰到数据量较小的数据集时,由于要分配数据,所用的验证集的数据量会很小,结果不一定对超参数的选择有意义,此时我们可以选择用交叉验证的方式来对超参数进行择优,即还是将一部分数据作为测试集,但剩下的不再分为训练集和验证集,而是将数据分为几份,分别取其中一份作为验证集,对算法进行反复验证,取超参数表现比较稳定的那一组作为结果,若数据量较大则不建议这么做,因为数据量较大就不需要额外处理验证集,且这样的多次训练会消耗大量时间和算力,得不偿失。
2025-06-23 00:25:35
736
原创 从0开始学习R语言--Day28--高维回归
但当特征数量远大于样本量时,可能会因为出现无数多个完美解导致过拟合现象,也使得在计算时搜索最有特征子集的方法不再可行(因为计算量过大)。鉴于此,我们可以使用高维回归,该方法会对很多特征的系数做出限制,一是增加惩罚项,许多特征的系数为0,减少算法的计算量;我的结果表明,有45个变量是有效的,但所画的图则表明只有前五个变量是有效的,其他变量的系数都是0,造成这个原因很可能是因为lambda不够大(惩罚值较小),所以才让模型引入了40个无关变量。
2025-06-21 23:23:08
265
原创 从0开始学习计算机视觉--Day02--数据驱动
在当时的imagenet比赛初期,识别图像的算法依旧是采用分层式的结构:先是计算一些图像的特征和局部不变特征,通过一些池化操作(一般会取窗口内的最大值或平均值作为输出,能够减少数据量,保留重要特征,达到降低复杂度,增强鲁棒性的效果)后,再通过一些多层处理(通过多层对数据进行处理,实现模拟人眼处理特征的过程,即从简单到复杂特征的识别)后,最终将结果描述符传递给线性SVM。其中,在2012年,错误率有了一个明显的降低,这得益于当时所提出的一个算法:卷积神经网络,而这个也是计算机视觉中的重点模型。
2025-06-21 23:21:44
492
1
原创 从0开始学计算机视觉--Day1--计算机视觉的起源
而随着时代的发展,不仅视觉数据的质量在上升,我们所使用的数据集,也有了不一样的处理方式:我们一般会采用有标注的图片进行训练(即标号是什么图片),有助于模型进行更好地学习。在早期的视觉研究中,要在计算机中成像一幅图片,或者是一个3D物品,需要先将它的边缘构建出来,也就是通过一些手段将边缘描出来,一开始是用一个个叉仿照线的结构,勾勒出一个类似的边缘,接着我们通过不规则的曲线,把深度信息和物品与场景的不规则性拼接在一起,最终将已经构造出的内容拼接在一起,就能得到一个由表面和体积图等分层内容组装的3D模型。
2025-06-20 00:20:20
352
原创 从0开始学习R语言--Day27--空间自相关
例如我们在分析城市犯罪率的时候,用聚类分析的思维,我们可能会思考不同城市的犯罪特征是什么,是否有相似点,亦或是试图把城市分成几种犯罪模式的归属;而如果用空间自相关的思想去看待,问题会变成,高犯罪率的街区在空间上是否聚集或靠近,哪些区域是犯罪率高的热点区域这种客观空间上的问题。Moran's值为0.858接近1,表明结果是强正空间相关的,p小于0.05更加强了结果的说服性,而图中所显示的说明重点区域多在横轴大于7.5的边缘地带,数据中有这个特征的在计算时需要额外乘以系数。
2025-06-18 23:32:38
338
原创 从0开始学习R语言--Day26--因果推断
从结果可以看到,单纯的比较康复时间,会隐藏在背后的很多原因,比如患者本身的病情,患者年龄较大,免疫力低等。进一步看线性回归控制变量,控制了相同的病情和年龄去看康复时间,治疗的方案会减少5天多,用倾向得分模拟的随机试验的得到的结果跟控制变量得到的结果差不多,加强了结果的可信度。这就好比测试一款新药是否真的能治病,假如吃药的患者康复的更快,那到底是因为药物本身的效果好,还是因为患者本身更健康,平时有控制饮食合理作息与运动,从而在患病后更快地凭借自身免疫力战胜病毒。
2025-06-17 23:53:24
310
原创 从0开始学习R语言--Day25--A/B测试 vs 多臂老虎机
二来,在很多场景中,差的方案会在落地测试时不可避免地对用户造成不好的体验。后者对应的一般是在用户的实时反馈和广告的点击率上,那么这种情况,我们会采用动态规划的方式,随着实验的进行,不断地减少差方案的数据,通过这种迭代的方式来降低额外的损失,从而实现快速地聚焦到优质方案。结果显示,在25天的模拟中,多臂老虎机算法最终分配了24%的流量给某个广告版本(可能是A或B),76%给另一个版本,符合原理的表现,同时24%的数据给另一个方案则保留了可能万一真的忽略了潜在方案的可能。
2025-06-16 23:46:16
223
原创 从0开始学习R语言--Day24--稀疏建模
从输出中可以看到,如果是用普通线性回归,结果显示统计量失效,无法解释;而稀疏建模则是把其余的冗余变量的系数都强制归为0了,而从图像可以观察到,当参数减少时,模型包含的特征逐渐增多,误差也在逐渐下降。这听起来有点像是稳健回归,但区别在于稳健回归是为了将数据的整体趋势不被部分离散点所带歪,而稀疏建模则是在损失函数中添加惩罚项,从而自动筛选保留少数的重要特征,而不是仅仅通过是否离散来判断。每个指标都是根据真实数据计算得出的,但是只有少数是能作为解释模型的,其余的都算是冗余特征。
2025-06-15 23:52:24
330
原创 从0开始学习语言模型--Day02-如何最大化利用硬件
毕竟我们平时练习用到的数据,很多都是别人处理好的,不管是在网站爬取的统计数据,还是网页上的文本,都是需要进行大量的细节操作来进行筛选的,以确保数据尽可能多保留我们想要的信息的前提下(一般会用到分类器来过滤掉垃圾信息,以及用去重来保证信息的唯一性,不让模型重复识别某类信息),更好地被模型识别。我们模型所用的数据和参数一般存储在内存里,假设把内存比喻为仓库,GPU比喻为工厂,那么我们所要做的就是最大限度提高数据在仓库和工厂之间运输的效率,像我们常说的矩阵乘法、融合或分块等算法都是在减少数据运输的成本。
2025-06-15 23:49:47
944
原创 从0开始学习语言模型--Day01--亲自构筑语言模型的重要性
在如今这个时代,人工智能俨然已经成了一个大家耳熟能详的词汇。随着技术的发展,它在不断地降低计算机领域一些工作的门槛,甚至有时候我们能看到一个可能六年前还需要从头开始学习的职业,现在只需要能掌握一个专属的小模型就可以拥有不俗的工作能力了。但实际上,一旦所研究的数据的规模到达增长到一定程度后,很多小语言模型都不再能够支撑这些学习强度了。鉴于此,从基础开始学大语言课程是很有必要的,正所谓要了解一个事物,最好的方式就是自己亲手构筑一个事物。
2025-06-14 23:45:00
469
原创 从0开始学习R语言--Day23--稳健回归
一般来说,对于打印出来后明显分布的比较集中,靠近线分布的数据,我们会优先用最小二乘法(OLS)去回归数据,在正常的情况下它的效果很好,但如果数据中存在了比较离谱的离散点,那么由于OLS的算法机制,它会为了强行去拟合这些离散点去扭曲回归线,也就是让其产生偏离,这会严重误导我们对数据的判断。而稳健回归在这类处理中,引入了权重,通过对离散点的误差计算,当它认为这是会产生极大误差的点时,会赋予这些点很低的权重(有时甚至接近于0),从而使模型能够忽略这些离散点,较好的呈现出数据本身的统计性质。
2025-06-14 23:39:18
542
原创 从0开始学习R语言--Day22--km曲线
从输出中,我们可以观察到两组的中位生存时间很接近,说明两组数据的病人存活率差不多,而图片中两条曲线的趋势相近,且置信区间(图中的阴影部分)大部分重叠,更进一步说明了两组数据的差异性不大。最后观察p值远大于0.05,说明在统计上两组数据没有显著不同。而KM曲线可以很好地反映人群在时间序列上的生存率,且能考虑到中途生存出院的数据,因为死亡率并不会等到病人都死亡了再去计算,而KM曲线对于这类数据的处理是出院人群不影响生存概率,即不会提高它,只是当做数据集的长度变短了,这样可以有效避免对于生存率和药物效果的误判。
2025-06-14 00:11:26
600
原创 从0开始学习R语言--Day21--Kruskal-Wallis检验与Friedman检验
Friedman检验同样用于检验水平,但比较倾向于检验不同时期的水平,比如有甲乙丙三人的期中、期末、模拟考成绩,假设只看成绩来判断,分别用成绩计算每个学生自己三个时期成绩排名(纵向对比,排名在学生个人内部),并计算每个时期的学生平均排名,就可以得到在每个时期学生的水平是否有进步。Kruskal-Wallis检验一般用于比较常见的比较三个群体的水平,比如我们有一班、二班、三班的语文成绩,我们将三个班的学生成绩混合在一起进行排名,也就是我们平时所说的级排名。
2025-06-11 00:17:16
489
原创 从0开始学习R语言--Day20--Wilcoxon秩和检验
即使是用缩进的方法,把数据缩进到(1-99%)或(1-95%)的范围内,假如有一些数据点集中在数据分布的尾端,这依然会影响到我们对数据特点的判断,尤其是需要探寻数据组之间的联系或关系的时候。而实际上,假设我们要探究的不是数据在统计上的数值关系,而是因果关系或比较,我们可以把数据处理成秩次的形式,从而去对比数据组,这样相当于把数据的分布都固定下来,也就相当于去对比两组数据的中位数了。从结果可以看到,p值远小于0.05,所画的箱线图也证明了A、B组的差异比较明显,中位数相差了10。
2025-06-10 00:03:15
431
原创 从0开始学习R语言--Day20-ARIMA与格兰杰因果检验
用简单的话来说就是,假设要研究小明生病的原因是不是不吃蔬菜,那么就先只看小明不生病的记录,尝试用过去生病的数据来预测未来是否会生病,再用小明不吃蔬菜期间的生病记录来预测,看看结果会不会更准,以此来辅助判断。同样的,可以看到关于y能否帮助x更好地去预测,p值为0.607 > 0.05,这说明x和y是相互独立的两个变量(在统计意义上),注意,即使我们用格兰杰因果得出这样的结果,我们也不能直接下这种判断,还需要考虑是否是因为影响了什么中间变量导致了变化。
2025-06-09 00:00:34
596
原创 从0开始学习R语言--Day18--分类变量关联性检验
在平时的分析中,关于分类的问题不仅仅会出现在如何将数据分类,还会体现在要如何去挖掘不同分类指甲呢关系,今天我们来学习分类变量关联性检验的相关方法。
2025-06-06 23:40:41
664
原创 从0开始学习R语言--Day17--Cox回归
协变量过多导致的过拟合(在训练数据上表现好但泛化能力差)、多重共线性(变量间高度相关,导致系数估计不稳定)以及统计功效降低(每个变量的效应可能被稀释)等问题,虽然不能直接修改cox的参数来改变,但是我们可以用曲线救国的方式,将风险转移或分割开来。但是我们得到的病人数据,往往会有很多的协变量,即使我们通过计算来减少指标对结果的影响,我们的数据中依然会有很多的协变量,且其之间还可能存在互相的影响以及合并症对结局的影响,也就是会导致研究的方向歪了。
2025-06-06 00:08:35
434
原创 从0开始学习R语言--Day16--倾向得分匹配
当然了,PSM不是真的给出两组有着接近相同的特征的数据,而是计算(倾向得分)概率值,其结果代表了这个数据基于它的特征会受到外界干预的可能性,其作用就是找出两组拥有相近倾向得分的数据。当然,在日常对数据的分析中,不能单看这两个值,因为在样本很大的情况下,即便其本来的效果很小,也会体现出显著性。在运用R进行生信分析时,我们经常会遇到需要我们确定某种蛋白或药物是否有效的课题,此时往往都需要用两组数据或更多去看其生效情况,但如果我们在数据清洗后直接查看结果,经常会得出其很有效的错觉。
2025-06-03 23:58:57
505
原创 从0开始学习R语言--Day15--非参数检验
假设我们有A,B两筐苹果,我们并不知道重量具体是多少,且看着苹果有很多不同大小,有的异常大,有的特别小。此时,我们先对两筐苹果做上属于各自的A、B标记,然后混在一起,通过天平比较大小,也就是对苹果重量做个排名。此时我们进一步计算,由于p=0.0004871 ,小于等于0.05,从而可以确定存在显著的差异,而不是因为异常值导致的差异。如果在进行T检验去比较两组数据差异时,假如数据里存在异常值,会把数据之间的差异拉的很大,影响正常的判断。那么这个时候,我们可以尝试用非参数检验的方式来比较数据。
2025-06-02 23:43:02
687
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人