- 博客(93)
- 收藏
- 关注
原创 R数据分析:有调节的中介与有中介的调节的整体介绍
单独的有调节的中介或者有中介的调节好多同学还大概能看明白,但是两个东西一起说我发现大部分同学就懵逼了。今天我就尝试将两种方法一起讲讲,重点帮助大家厘清两种方法的异同。调节变量(moderator)通过中介变量(mediator)间接影响因变量(outcome)。下图就是一个典型的。关注的是下图就是一个典型的有调节的的中介作用模型(当然也不是唯一的):所以说,有调节的中介模型在总体上是不要求有调节作用。关注的是。换句话说,中介变量的“传递机制”并不固定,而是受调节变量的影响。
2025-01-18 22:54:37
1522
原创 R数据分析:多分类问题预测模型的ROC做法及解释
有同学做了个多分类的预测模型,结局有三个类别,做的模型包括多分类逻辑回归、随机森林和决策树,多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的,后面两种模型报告了混淆矩阵,审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了,刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。
2025-01-07 20:58:28
967
原创 R数据分析:多分类问题预测模型的ROC做法及解释
有同学做了个多分类的预测模型,结局有三个类别,做的模型包括多分类逻辑回归、随机森林和决策树,多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的,后面两种模型报告了混淆矩阵,审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了,刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。
2025-01-07 20:57:56
1212
原创 R机器学习:神经网络算法的理解与实操,实例解析
神经网络算法是一种模仿生物神经网络(尤其是人脑)结构和功能的算法。它由大量相互连接的节点(称为神经元)组成,这些神经元组织成层,通过传递信号来处理信息。神经网络算法在机器学习、人工智能等领域中扮演着至关重要的角色,尤其擅长处理复杂的模式识别、分类和预测问题。今天给大家介绍下这个算法。回忆一下高中生物知识,高中的时候我们学过生物神经元:生物神经元通过树突接收信号,通过轴突发送信号。神经元之间通过突触连接,信号的强弱由突触的“强度”控制。在人工神经网络中,人工神经元模拟了生物神经元的工作原理。它也接收多
2025-01-03 21:11:25
771
原创 R数据分析:工具变量回归的做法和解释,实例解析
前几天看了个视频,是2024年诺贝尔经济学奖得主在分享自己的研究,研究问题是“制度如何形成并影响经济繁荣”,在研究这个问题的时候他的PPT中提到研究的统计过程中用到了工具变量,想着再次大家介绍一下这个方法。说不定利用这个方法,哪天我的读者里面也出个诺贝尔奖得主呢,哈哈哈。你通过数据发现,冰淇淋销量高的月份,溺水人数也比较多。你可能会得出“吃冰淇淋导致溺水”的结论吗?显然不合理。这里存在一个“”——。所以,冰淇淋销量和溺水人数之间并非直接的因果关系,而是都被气温这个共同的因素所影响。
2024-12-25 21:31:39
1449
原创 R机器学习:决策树算法的理解与实操
今天继续给大家介绍决策树算法,决策树本身是一种非常简单直观的机器学习算法,用于做分类或回归任务。它就像我们平常做决定时的过程,通过逐步排除可能的选项,最终得出结论。一个典型的决策树的决策过程如下图:可以看出来决策树至少有两个优点:一是决策树的结构就像一棵树,每个节点代表一个属性测试,每条边代表一个测试结果,叶子节点代表最终的分类结果。这种结构非常符合人类的思维方式,让我们很容易理解模型是如何做出决策的。二是通过观察决策树,我们可以清晰地看到哪些特征对分类结果影响最大,从而帮助我们更好地理解数据。
2024-12-23 20:47:28
533
原创 R机器学习:朴素贝叶斯算法的理解与实操
那么这个时候算法就会告诉我们这个水果就是香蕉。上面就是算法的整个过程,细心的同学估计会有疑问橘子的概率为0,只是因为所有训练数据中结局为橘子的个案long这个特征没有出现真(某一个证据似然概率为0),朴素贝叶斯算法涉及到相乘的话造成了结果为0。在这个只有3个特征的数据集中看起来这个结果无可厚非,长橘子本身好像现实中也不存在。
2024-12-18 19:50:27
1025
原创 R数据分析:网状meta分析的理解与实操
meta分析之前有给大家写过,但是meta分析只能比较两个方法。经常是被用来证明在现有研究中显示矛盾结果的干预方法到底有没有效的时候使用,通过证据综合得到某种干预到底有没有用的结论。但是如果我要证明好几种方法到底哪个最优,这个时候meta分析就不行了,我们得使用网状meta。网状meta的原理和meta没有区别,可以进行多个干预的同时分析。一个研究直接对A、B两种干预进行比较,这个叫做直接证据;
2024-04-10 21:10:12
2000
1
原创 R数据分析:非劣效性研究设计的统计处理方法,原理和实例
在我们经常接触的统计模式中,我们是在寻求推翻原假设,证明差异,这种统计模型在传统的临床试验中,在各种统计推断中已经成为默认了。在传统的临床试验中通常会将一种新的治疗方法与标准治疗或安慰剂进行比较,从而证明这种新治疗具有更好的疗效,这类试验的原假设是这两种治疗方案的治疗效果没有差异。如果统计分析拒绝这一假设,说明这两种治疗的疗效是有差别的,即出现统计学上差异性展示出显著的P值,这个时候就证明了我们的研究目的。但是,当我们开发新药或者新的治疗方法的时候,这个时候我们的目的可能。
2024-01-27 21:53:29
1594
原创 R数据分析:集成学习方法之随机生存森林的原理和做法,实例解析
很久很久以前给大家写过决策树,非常简单明了的算法。今天给大家写随机(生存)森林,随机森林是集成了很多个决策数的集成模型。像随机森林这样将很多个基本学习器集合起来形成一个更加强大的学习器的这么一种集成思想还是非常好的。所以今天来写写这类算法。
2023-11-23 21:29:42
2916
3
原创 R数据分析:净重新分类(NRI)和综合判别改善(IDI)指数的理解
对于分类预测模型的表现评估我们最常见的指标就是ROC曲线,报告AUC。比如有两个模型,我们去比较下两个模型AUC的大小,进而得出两个模型表现的优劣。这个是我们常规的做法,如果我们的研究关注点放在“”,这个时候ROC就常常会显得力不从心,因为通常加入一个变量AUC不会有太大的变化,且AUC不好解释。这时,就需要用到我们今天要讲的综合判别改善指数IDI, 净重分类指数NRI指标。
2023-11-08 20:07:30
2089
原创 R数据分析:反事实框架和因果中介的理论理解
理论上定义各种效应的表达确实没问题,但是这些效应都是两个反事实情况的差值,在实际情况下我又不能同时观测到两个反事实,那么这些基于反事实框架定义出来的中介效应值又如何算呢?这个时候依然需要建模做预测(一个预测m的模型和一个预测y的模型),模型出来了后,我们可以利用模型得到每个个案的反事实结果,这样就可以得出直接效应和间接效应了。和传统中介不同的是这些模型不是服务于效应分解的,是用来估计反事实结果的。就是根据原来数据模拟预测然后得到个案的反事实结果,再根据反事实结果,得到中介的效应分解。
2023-10-31 20:24:05
647
原创 R数据分析:解决科研中的“可重复危机”,理解Rmarkdown
Rmarkdown能输出的文件类型非常多,帮助你完成的任务非常多,比如下面这一大堆:做个PPT,写个Shiny应用都可以:这些功能强烈鼓励大家自己去探索一番,我们今天给大家介绍了基础操作。然后重点就放在学术论文的可重复危机角度,重点给大家介绍Rmarkdown学术论文写作和帮助大家理解Rmarkdown能结局科研重复危机的逻辑。
2023-06-22 21:48:41
943
原创 R数据分析:多项式回归与响应面分析的理解与实操
今天给大家分享一个新的统计方法,叫做响应面分析,响应面分析是用来探究变量一致性假设的(Congruence hypotheses)。本身是一个工程学方法,目前在组织行为学,管理,市场营销等等领域中使用越来越多。响应面分析尤其是在探究一致性和不一致性作用的时候是最佳选择,就是说比如你有两个自变量,一个因变量,你想看看如果这两个自变量都同时一致性变化(同时增大或减小)和同时不一致变化(一个增大另一个减小)的情况下,因变量如何变化。这个时候一定记得使用响应面分析。
2023-06-01 18:50:16
2630
2
原创 R数据分析:生存数据预测模型的建立和评价(二)timeROC与决策曲线
上篇文章依照的一篇文章给大家写了生存数据预测模型评价的C指数、校准曲线和模型验证结果的做法,其实生存数据预测模型的评价方法还有很多,本期接着往下看。
2023-05-09 20:44:17
2645
1
原创 R数据分析:生存数据的预测模型建立方法与评价
之前写了生存分析列线图的做法,列线图作为一个预测模型可视化工具,我们使用它的过程其实就是一个给新数据做预测的过程,其内在本身的模型就是我们基于现有数据训练的一个预测模型,今天也算是接着上一篇文章继续写生存分析的预测模型的效果评价。生存数据预测模型和我们之前写的连续变量结局和分类结局的预测模型不同的地方就在于我们得考虑生存数据的删失和时间因素,通过这么一个预测模型,
2023-04-18 20:24:40
943
原创 R数据分析:生存分析的列线图的理解与绘制详细教程
列线图作为一个非常简单明了的临床辅助决策工具,在临床中用的(发文章的)还是比较多的,尤其是肿瘤预后:找个公开数据库做生存分析出个列线图,然后出个文章是很多临床同学可以依赖的较容易的实现路径,之前有给大家介绍过列线图,今天开始再给大家比较详细地写写生存分析列线图系列,希望可以对大家有帮助。
2023-03-30 20:28:21
1149
2
原创 R数据分析:做量性研究的必备“家伙什”-furniture包介绍
今天学习别人的代码,看到将table1和tidyr一起写出来的代码真的太方便太简洁了。而且看到furniture这个包就是开发出来给医学和社会科学的量性研究者用的,这不正对胃口嘛,于是整理一下furniture包的一些知识,分享给大家。
2023-03-02 20:25:25
502
原创 R数据分析:跨层中介的原理和做法,实例操练
之前有同学问过我211模型,没听过这个词,感觉怎么有这么不严肃的名字,偷偷去查了查,211模型,其实就是嵌套数据的中介的情形之一。根本上讲还是属于多水平模型的路径分析(用多水平模型跑回归也可以做中介,但其不在本文讨论范围,本文主要关注多水平结构方程multilevel structural equation modeling MSEM框架下的中介做法)。然后偷偷整理了下这方面的内容,今天刚刚好给大家写一些这方面的内容,希望对大家有所帮助。
2023-02-23 19:16:08
1113
2
原创 R机器学习:重复抽样在机器学习模型建立过程中的地位理解
在做机器学习项目的时候,一开始我们会将数据集分为训练集和测试集,要记住建模过程中肯定有模型调整,必然涉及到模型挑选的问题,当过程中我需要做很多个模型时,问题来了,如果我不去评估我怎么知道哪一个模型是最好的?想想在利用测试集之前,怎么也得加上一个评估过程,帮助我们确定,到底哪个模型才是最好的,才是值得最终被用到测试集上的。这个过程就涉及到重复抽样了resampling!
2023-02-10 18:55:10
934
原创 R数据分析:孟德尔随机化中介的原理和实操
中介本身就是回归,基本上我看到的很多的调查性研究中在中介分析的方法部分都不会去提混杂,都是默认一个三角形画好,中介关系就算过去了,这里面默认的逻辑就是前两步回归中的混杂是一样的,计算中介效应的时候就自动消掉了。但是,实际上对不对,还是有待具体分析的:孟德尔随机化作为一个天然的免去混杂的方法,和中介结合,整个中介又变得更纯净了,是一种更加值得推崇的中介做法,也是孟德尔随机化研究的必要的延申。
2023-02-09 20:32:27
5839
1
原创 R数据分析:孟德尔随机化中介的原理和实操二
上面的流程跑通之后,对于中介分析,我们需要报告间接效应的估计值和置信区间,还有中介比例的估计值和置信区间,类似下面的这样:转存失败重新上传取消但是其实我们是光跑孟德尔是得不到上面的需要的值的(比如间接效应的标准误,中介比例的标准误),此时需要借助的方法之一叫做delta method。转存失败重新上传取消delta method可以帮助我们得到ab相乘的标准误,从而算出中介效应的置信区间。转存失败重新上传取消。
2023-02-09 20:31:30
4538
1
原创 R数据分析:国产新冠口服药比辉瑞好的文章的统计做法分享
元旦前在人民日报中央厨房上看到一篇文章,叫做“比肩辉瑞的国产新冠药物VV116,是这样研制和临床试验的”,想来就把文献原文找来读了读,写下本文分享给大家,本文主要关注文章的正文中主要统计设计(文章补充材料中还有很多值得学习的地方),前面的实验设计,包括盲法,纳排标准统统不在本文考虑,主要目的是让大家感受下NEJM的杂志的统计做法到底有多“难”。研究原文链接如下:https://www.nejm.org/doi/pdf/10.1056/NEJMoa2208822,点击即可阅读。
2023-01-03 18:27:52
522
原创 R数据分析:冲击流图与热图的做法以及多图布局
今天看了一篇新冠肺炎相关后遗症的文章,主要探讨新冠住院病人一年后的后遗症情况,文章的统计分析很简单,不过结果展示中的两个图我觉的大家可以学一学,原文如下感兴趣的童鞋可以去读一读原文,我们今天依然是聚焦文章呈现形式的复现。首先就是这个冲击流图可以看到在这个图中作者将数据以性别进行了分层,每个性别中5个后遗症的发病数量用线条的宽度来表示,这样就可以将每个后遗症中各个性别人数占比情况很直观的展现出来。我们先来看这个图的做法。
2022-12-14 21:33:11
535
原创 R数据分析:孟德尔随机化实操
就是通过漏斗图一看都是所有的工具变量都是呈漏斗分布的,就说明没有偏向,这个时候我们认为定向多效性都被冲掉了,不影响。好,解释了上面的一些术语之后,我们实操一波。
2022-12-14 21:30:08
12816
6
原创 R数据分析:网络分析的做法,原理和复现方法
对于复杂问题和现象行为的研究,尤其是他们之间还有复杂的交互影响(complex interplay)的时候,网络分析(备用名:psychological networks, network analysis or network psychometrics)是个备选的好方法,这个方法火了也没几年,感兴趣的同学可以去学学,而且,如果你再能把网络图做的美点,应该各个审稿人都愿意看的。今天尝试给大家做个网络分析的简单介绍。
2022-11-08 21:31:04
3450
5
原创 R数据分析:扫盲贴,什么是多重插补
好多同学跑来问,用spss的时候使用多重插补的数据集,怎么选怎么用?是不是简单的选一个做分析?今天写写这个问题。
2022-11-01 19:28:37
3459
4
原创 R机器学习:特征工程与特征选择的介绍
看了很多高深的算法之后,感觉还是看不懂哦,今天又来代大家复习基本功,一个是特征工程,另一个是特征选择。都是两个非常非常重要的东西,先定两个基调,所谓的特征工程就是数据预处理,所谓的特征选择就是变量筛选,这样大家就不觉得这么难了。并且也可以将特征选择看作是特征工程的一部分,概念上不纠结,知道是这么回事就好,同时特征工程的整个过程也要结合具体问题具体分析,需要经验,需要背景知识,整个过程也是没有金标准的。可以说这是一项科学与艺术相结合的工作。
2022-11-01 19:26:27
807
原创 R数据分析:用R建立预测模型
预测模型在各个领域都越来越火,今天的分享和之前的临床预测模型背景上有些不同,但方法思路上都是一样的,多了解各个领域的方法应用,视野才不会被局限。今天试图再用一个实例给到大家一个统一的预测模型的做法框架(R中同样的操作可以有多种多样的实现方法,框架统一尤其重要,不是简单的我做出来就行)。...
2022-08-30 21:25:37
4146
2
原创 文献解读:有监督的机器学习在心理学上的应用
最近看了一篇论文,写的比较系统,也比较基础,对复习强化有作用,顺便写下来分享给大家,文献原文贴在下面:温馨提醒大家,文献中有所有提到方法的数据和代码,所以愿意钻研的同学自己可以去下载尝试的,有些东西你不动手,光看是学不会的。
2022-08-24 21:04:53
601
原创 R数据分析:临床预测模型实操,校准曲线和DCA曲线做法示例
之前给大家写过好几篇很详细的临床预测模型的原理解析,本文接着之前的文章,继续写做法,首先依然是找到一篇参照论文,今天我们的示例文章是一篇来自美国心脏学会杂志的文章:原文给大家贴在上面,我们要做的就是对文章统计部分进行复现。整篇文章就是开发了一个用于预测癌症患者的3个月死亡率风险诺模图,考虑了什么变量,用的是什么人群队列,本文不关心,感兴趣的同学自行去阅读原文哈,本文着重写宏观做法,作者具体使用的模型是Step-wise logistic regression,文章中有报告各个变量的OR和整体模型的conco
2022-07-14 07:47:30
1946
原创 R数据分析:结合APA格式作图大法讲讲ggplot2和ggsci,请收藏
之前给大家写过一篇plot的基础操作,相信同学们应该没有看过瘾。不过主流的用的多的还是ggplot2,所以今天打算结合一个形成APA样板格式图片的实例写写ggplot2的操作和图的配色。大家可以去到美国心理学会的官网,就可以看到APA格式的详细介绍了:转存失败重新上传取消包括论文模板、引注规则等等,内容可以说很丰富了,对于社科类学生,不会写论文的,这个网站就是金标准啦,强烈推荐下。不过我们今天关注的是里面的figure的标准,点开主页的Tables and Figures我们进入到下一个界面:转存失败重新上
2022-07-10 21:14:17
522
原创 R数据分析:cox模型如何做预测,高分文章复现
今天要给大家分享的文章是作者做了癌症结局与延迟治疗时间的关系。作者希望能给在疫情背景下怎么样更好地分流癌症患者这一实际问题提供实证依据。作者纳入了4个癌症,发现了基本上Time-to-treatment initiation (TTI)约长,癌症患者的5年和10年死亡率越高。这个结果和目前的部分指南其实是矛盾的,所以整篇文章还是有一定实际意义的。本文依然是关注文章如何在做法上在统计上进行复现,启发大家如何用自己的数据做一个同样设计的研究。作者将关心的主变量TTI进行了分类处理,将延迟治疗时间分了4类:为了准
2022-07-06 20:00:03
2647
原创 R数据分析:临床预测模型中校准曲线和DCA曲线的意义与做法
之前给大家写过一个临床预测模型:R数据分析:跟随top期刊手把手教你做一个临床预测模型,里面其实都是比较基础的模型判别能力discrimination的一些指标,那么今天就再进一步,给大家分享一些和临床决策实际相关的指标,主要是校准calibration和决策曲线Decision curve analysis。做预测模型都应该报告校准曲线的:先给大家解释,预测模型为什么除了需要discrimination的一些指标外(比如tp,tn,fp,fn,roc,LR+,LR-等等)还需要做校准曲线:是因为:这些指标
2022-06-14 21:23:18
19460
1
原创 R数据分析:如何简洁高效地展示统计结果
之前给大家写过一篇数据清洗的文章,解决的问题是你拿到原始数据后如何快速地对数据进行处理,处理到你基本上可以拿来分析的地步,其中介绍了如何选变量如何筛选个案,变量重新编码,如何去重,如何替换缺失值,如何计算变量等等------R数据分析:数据清洗的思路和核心函数介绍今天呢,就更进一步,对于一个处理好的数据,我们就可以进行统计分析了,本文的思路就是对照期刊论文的一般流程写写如何快速的实现一篇论文的统计过程并简洁高效地展示结果。依然提醒大家,请先收藏本文再往下读哈。基本上文章结果部分一上来首先展示的就是描述统计,
2022-06-04 21:37:19
1111
原创 R可视化:plot函数基础操作
最近迷恋上了画图,一方面是觉得挺有意思的,另一方面是觉得自己确实画图方面比较弱,所以决定比较系统地回顾反思一下,同时顺带记录下来分享给大家。也确实是好久好久没更新文章了,真的是杂事太多太忙太牵扯精力没法更新,好多粉丝的消息也都回不了。还有一个原因就是画图这个东西,可以学一点记一点,然后写一点,碎片化时间可以完全利用起来,写统计方法的话,是需要大量整块的时间去思考的,思路断了下次相连起来就特别困难,所以如果不是特别闲,有大量整块的时间,感觉我自己也很难写的出来了。因为太多是精力被牵扯,稍有闲暇时间就只想躺
2022-05-15 20:36:23
2778
原创 R数据分析:纵向分类结局的分析-马尔可夫多态模型的理解与实操
今天要给大家分享的统计方法是马尔可夫多态模型,思路来源是下面这篇文章:Ward DD, Wallace LMK, Rockwood KCumulative health deficits,APOEgenotype, and risk for later-life mild cognitive impairment and dementiaJournal of Neurology, Neurosurgery & Psychiatry 2021;92:136-142.我们知道轻度..
2022-03-25 18:03:01
2732
10
原创 Mplus数据分析:分段潜增长模型,看jama如何玩转纵向数据的轨迹
今天给大家介绍分段潜增长模型的原理和做法,之前我有给大家写增长混合和潜增长,它们的主要的局限在于轨迹都是连续的不能分段,在于对phasic的现象把握其实还是不够的,比如儿童认知的发展,按照理论,它是可以明显分段的,如果这个时候我们非要给人家拟合一个连续曲线?万一人家发展就是分了两个阶段线性发展的呢?所以这些方法还是不太好,今天给大家介绍分段潜增长模型,专门解决这个问题。理论铺垫增长混合模型之前有给大家写,其优点在于可以看轨迹,局限性在于趋势不好解释。什么意思呢,其实很多时候我们拟合不出来一组十分有意
2022-03-20 17:27:51
1983
原创 mplus数据分析:增长模型潜增长模型与增长混合模型再解释
混合模型,增长混合模型这些问题咨询的同学还是比较多的,今天再次尝试写写它们的区别,希望对大家进一步理解两种做轨迹的方法有帮助。首先,无论是LCGA还是GMM,它们都是潜增长模型的框框里面的东西:Latent growth modeling approaches, such as latent class growth analysis (LCGA) and growth mixture modeling (GMM), have been increasingly recognized for th
2022-03-09 11:04:09
5173
3
原创 R数据分析:样本量计算的底层逻辑与实操,pwr包
样本量问题真的是好多人的老大难,是很多同学科研入门第一个拦路虎,今天给本科同学改大创标书又遇到这个问题,我想想不止是本科生对这个问题不会,很多同学从上研究生到最后脱离科研估计也没能把这个问题弄得很明白,那么希望大伙儿在看了这篇文章能够更加深入地理解样本量计算的逻辑,也能对大家的科研设计中的样本量设计部分有所启发。样本量计算的逻辑还记得我们最开始接触统计推断的时候,大家都知道一个词叫做原假设,原假设一般来讲都是“阴性的”,我们统计推断要做的事情便是推翻原假设从而得出有“统计学意义的结果”,怎么去推翻?
2022-03-03 21:40:29
2343
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人