代码+视频系列
文章平均质量分 53
天桥下的卖艺者
4个R包的编写者。发布关于SPSS、R语言、stata等相关科研的文章。今后的方向聚焦于:1.机器学习和深度学习 2.各种模型算法研究 3.各种科研图形绘制 4.R语言编程和R包编写 5.数据挖掘
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
手把手带你复现一篇8.1分一区charls分共病分析文章
CHARLS 是一项针对中国45岁及以上人群的追踪调查,建立了包含社会经济和健康等多维度的公共数据库。研究采用国际标准方法,自2011年起开展多轮追踪调查,样本覆盖全国450个社区。本文复现了一篇8.1分一区期刊文章,探讨腹部肥胖与非传统血脂参数对心脏代谢性多发病(CMM)的联合影响。研究通过R语言分析发现:1) 腹部肥胖与高AIP组CMM发病率显著升高;2) 多因素cox回归显示,调整混杂因素后风险比仍显著。研究结果为CMM的一级预防提供了重要依据,证实了代谢指标联合评估的价值。原创 2025-08-11 09:52:17 · 1872 阅读 · 0 评论 -
代码+视频,解决亚组分析报错和森林图添加字符
摘要:本文介绍了SCI文章中交互效应表格(表五)的重要性,通过亚组分析提升文章可信度和数据挖掘价值。文章包含R语言代码示例,展示了如何处理亚组分析中的常见错误(如变量转换和缺失值处理)以及森林图的字符添加技巧,包括调整格式、修改数字为字符等操作。视频教程和代码示例帮助读者掌握亚组分析的关键步骤,为高质量SCI论文撰写提供实用工具。原创 2025-08-04 09:09:32 · 333 阅读 · 0 评论 -
ggscitable包发布--一键生成1篇3.8分文章的亚组交互效应图
age表示年龄,pathsize表示病理肿瘤大小(厘米),lnpos表示腋窝淋巴结阳性,histgrad表示病理组织学等级,er表示雌激素受体状态,pr表示孕激素受体状态,status结局事件是否死亡,pathscat表示病理肿瘤大小类别(分组变量),ln_yesno表示是否有淋巴结肿大,time是生存时间,后面的agec是我们自己设定的,不用管它。这里我指出一下,函数默认是做有交互影响的结果,如果你不考虑交互影响,只是看每组的分类情况,我们可以关掉交互效应。所以考虑与否交互效应,结论还是稍微不同的。原创 2025-01-23 17:05:59 · 1379 阅读 · 0 评论 -
代码+视频,轻松复现CHARLS文章中的表3
2019 年底到 2020 年初,新冠疫情在中国爆发,为及时记录新冠疫情对中国中老年人生活和健康的影响,在 2020 年的第 5 轮调查中增加采集了疫情相关的信息。CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。视频介绍一下如何使用我写的函数轻松复现CHARLS文章中的表三,比较适合没有统计基础的初学者,根本不用费劲学什么T检验,卡方检验,回归等。原创 2024-11-08 09:19:38 · 1064 阅读 · 0 评论 -
代码+视频,R语言pheatmap包绘制热图
既往在文章《R语言pheatmap包绘制热图》中,咱们介绍了pheatmap包绘制热图,今天咱们视频+代码来演示一下。热图就是使用颜色来表示数据相关性的图。R语言pheatmap包绘制热图。原创 2024-10-12 09:31:03 · 741 阅读 · 0 评论 -
跟着BMJ玩转预测模型系列(1)--计算开发临床预测模型所需的样本量
作者分成了3种情况,第一种是:二分类逻辑回归的,第二种是生存分析,第三种,type参数,“c”指定了具有连续结果的预测模型的样本量计算,“b”指定具有二元结果的预测模型的样本量计算,“s”指定了具有生存期(事件发生时间)结果的预测模型的样本量计算。先看下它的模型参数,大概就是下面这样的,parameters 协变量个数 , prevalence ,患病率 ,csrsquared:R方 ,type类型。这里显示需要695例样本量,最后来做个连续变量的,使用的是我的臭氧数据。不会的还可以看下面视频。原创 2024-09-19 11:27:27 · 2087 阅读 · 0 评论 -
首发,nhanes数据(复杂调查数据)倾向性评分匹配函数(PSM)svypm2发布
目前据我所知,目前尚未有专门的nhanes数据匹配的函数或者R包,应粉丝的要求,开发了svypm2函数,目前只能做2组分类的倾向评分匹配,3组分类的倾向评分匹配的还要等一等。给大家多一种选择,仅此而已。最后我总结一下,所谓匹配,就是找到相似的数据,因此协变量越多的话你的卡钳应该尽量的小,因此匹配得到的数据也会比卡钳大的数据小。这里我解释一下参数,data是你的数据,x是你需要进行分组匹配的变量,Y是你研究的结局变量,必须是分二类变量,covs是你要调整的协变量,design这里填入咱们的调查函数。原创 2024-08-13 09:09:27 · 1423 阅读 · 0 评论 -
代码+视频,R语言VRPM绘制多种模型的彩色列线图
列线图,又称诺莫图(Nomogram),它是建立在回归分析的基础上,使用多个临床指标或者生物属性,然后采用带有分数高低的线段,从而达到设置的目的:基于多个变量的值预测一定的临床结局或者某类事件发生的概率。列线图(Nomogram)可以用于多指标联合诊断或预测疾病发病或进展。咱们既往已经多篇文章介绍绘制列线图,今天咱们来视频介绍一下VRPM包绘制彩色列线图,这个包可以绘制多个模型的列线图,咱们一一来介绍。近些年来在高质量SCI临床论文中用的越来越多。R语言VRPM绘制多种模型的彩色列线图。原创 2024-08-09 09:08:57 · 719 阅读 · 0 评论 -
新手(初学者)学R语言第一课,从学正确导入数据开始
因为R语言是个注重格式的语言,目前导入数据的R包种类繁多,有些R包存在格式转换问题,所以导入数据后分析容易出现各种各样的问题。有人可能会说这是我scitb5函数的bug,但其实不是是这句很普通代码的报错,一句涉及数据转换的代码,这句代码应该很常用,涉及很多场景,很多R包都会用。第二:如果是SPSS数据,咱们可以使用foreign包,如我乳腺癌的例子,to.data.frame=T这个一定要有,因为这句等于把数据转成数据框。我推荐两种方法导入数据,这些都是我长期实践觉得比较稳定,不容易出错的,原创 2024-06-21 09:05:28 · 2633 阅读 · 0 评论 -
代码+视频,手把手教你下载NHANES死亡数据
美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。既往再文章《Nhanes临床数据库挖掘教程1----数据库下载》中,咱们已经初步介绍了Nhanes临床数据的下载,但是这个数据没有涉及到死亡结局和随访时间,本次继续视频介绍如何下载死亡结局相关的数据。地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx。原创 2024-06-14 09:43:53 · 5778 阅读 · 0 评论 -
关于目前ggrcs包的报错解决方案
我查看了一下,目前报错来源于新版本后的RMS包,主要是预测函数的报错,这个只能等R包作者来修复这个错误。目前需要急用的话,我提供了一个方案,请看下面视频操作。目前有不少粉丝私信我说使用ggrcs包出现如下错误。关于目前ggrcs包的报错解决方案。原创 2024-06-10 09:25:52 · 2828 阅读 · 9 评论 -
代码+视频,R语言如何从可信区间推断P值
它们不正确的主要背景是小样本,其中结果是连续的,并且分析是通过t检验或方差分析完成的,或者结果是二分的,并且对置信区间使用了精确方法。但是,即使在这种情况下,在包含 60 名或更多患者的大型研究中,这些方法也将大致正确。但是在:一些已发表的文章报告了置信区间,但没有给出相应的P值,如荟萃分析。在我们的一些重抽样中也可以得出可信区间,但是没P值。对于非常小的 P 值,P 公式是不可靠的,如果您的 P 值小于 0.0001,则只需将其报告为 P原创 2024-06-05 09:03:53 · 608 阅读 · 1 评论 -
ggscidca包2.3版本发布, 10分钟让你成为决策曲线高手
age表示年龄,pathsize表示病理肿瘤大小(厘米),lnpos表示腋窝淋巴结阳性,histgrad表示病理组织学等级,er表示雌激素受体状态,pr表示孕激素受体状态,status结局事件是否死亡,pathscat表示病理肿瘤大小类别(分组变量),ln_yesno表示是否有淋巴结肿大,time是生存时间,后面的agec是我们自己设定的,不用管它。值得注意的是,如果是多个时间点的决策曲线,时间的个数和模型的个数还有数据的个数必须一致,因为是一个个的对应跑模型的,下面我来示范一个错误的。原创 2024-05-29 09:14:51 · 2046 阅读 · 0 评论 -
代码+视频,总结R语言常用的几种按条件转换数据的方法
在科学研究中免不了和数据打交道,收集到原始数据后我们经常需要对其进行清洗、转换才能得到我们需要的数据。今天我总结了一下自己常用的一些多条件的数据转换方法,在临床中遇到问题能多一种选择,下面视频操作演示一下。总结R语言常用的几种按条件转换数据的方法。原创 2024-05-24 09:03:53 · 533 阅读 · 0 评论 -
代码+视频,R言语处理数据中的缺失值
在SCI论文中,我们不可避免和缺失数据打交道,特别是在回顾性研究,对于缺失的协变量(就是混杂因素),我们可以使用插补补齐数据,但是对于结局变量和原因变量的缺失,我们不能这么做。部分人的做法是直接删除掉这部分的数据(如SEER数据库),有些高分SCI杂志的审稿人会问你缺失数据的情况和你是怎么处理的,如果我们能附上一个缺失数据和未缺失数据比较的表格,可以起到一表抵千言万语的作用,如下图。今天咱们视频演示一下如何R语言做出上面的表格。R言语处理数据中的缺失值。原创 2024-05-11 10:18:09 · 569 阅读 · 0 评论 -
scitb5函数2.1版本(交互效应函数P for interaction)发布----用于一键生成交互效应表、森林图
数据解释如下:low 是否是小于2500g早产低体重儿,age 母亲的年龄,lwt 末次月经体重,race 种族,smoke 孕期抽烟,ptl 早产史(计数),ht 有高血压病史,ui 子宫过敏,ftv 早孕时看医生的次数,bwt 新生儿体重数值。加下来说一个包含的问题,在既往函数中,我要求协变量COV是要包含分层变量,不然就会报错,但也有些粉丝说这样有时候不够灵活,新版本中这个包含规则也是可以关掉的,我重新设置一下协变量h额分层。生成结果,这里的Y是连续变量,所以是线性回归。导入我们的早产数据和函数。原创 2024-05-08 11:51:57 · 1076 阅读 · 0 评论 -
生存分析亚组交互函数scitb5.coxph 1.6尝鲜版(P for interaction)发布----用于一键生成交互效应表、森林图
然后一句话代码就可以生成表格,data是你的数据,必须是数据框形式,x是你研究的目标变量,y是你的结局变量,time是你的时间变量,Interaction是你的分层变量,这个必须是分类变量并转成因子,cov是你的协变量,family="cox"这个是固定的。Cox回归也是可以一键生成森林图的,既往森林图黑色我觉得有点单调,改成蓝色了。加下来说一个包含的问题,在既往函数中,我要求协变量COV是要包含分层变量,不然就会报错,但也有些粉丝说这样有时候不够灵活,新版本中这个包含规则也是可以关掉的,比如以下情况。原创 2024-05-07 09:04:27 · 1259 阅读 · 2 评论 -
代码+视频,R语言绘制生存分析模型的时间依赖(相关)性roc曲线和时间依赖(相关)性cindex曲线
ROC曲线分析是用于评估一个因素预测能力的手段,是可以用于连续型变量分组的方法。在生存分析中,疾病状态和因素取值均会随时间发生变化。而标准的ROC曲线分析将个体的疾病状态和因素取值视作固定值,未将时间因素考虑在分析之中。在这种情况下,使用时间依赖性ROC无疑是更好的选择。R语言绘制生存分析模型的时间依赖(相关)性roc曲线和时间依赖(相关)性cindex曲线。今天咱们视频来演示一下时间依赖ROC曲线绘制。原创 2024-04-28 10:11:31 · 1558 阅读 · 0 评论 -
代码+视频,R语言对数据进行多重插补后回归分析
我们在临床做回顾性研究分析中经常要面对数据缺失的问题,如果数据缺失量大就会对我们的研究结果产生影响,近年来,对数据进行多重插补广泛应用于SCI论文中。我们在之前的文章中已经演示了使用SPSS对数据进行多重插补并分析。今天,我们通过视频演示使用R语言的Mice包来演示多重插补并对数据进行分析。R语言对数据插补并进行分析。原创 2024-04-19 09:36:35 · 1462 阅读 · 0 评论 -
代码+视频,R语言手动绘制连续线条的校准曲线(Calibration curve)(3)
校准曲线图表示的是预测值和实际值的差距,作为预测模型的重要部分,目前很多函数能绘制校准曲线。一般分为两种,一种是通过Hosmer-Lemeshow检验,把P值分为10等分,求出每等分的预测值和实际值的差距。我们既往已经通过多篇文章介绍了等分的校准曲线绘制,今天来视频介绍一下上图这种连续的,线条样的校准曲线绘制。原创 2024-04-12 10:14:33 · 1321 阅读 · 0 评论 -
代码+视频,手动绘制logistic回归预测模型校准曲线(Calibration curve)(2)
我们既往文章《手动绘制logistic回归预测模型校准曲线》已经进行了手动绘制logistic回归预测模型校准曲线,今天继续视频来介绍外部数据的校准曲线验证和分类数据的校准曲线。一般分为两种,一种是通过Hosmer-Lemeshow检验,把P值分为10等分,求出每等分的预测值和实际值的差距。R语言手动绘制logistic回归预测模型校准曲线(Calibration curve)(2)校准曲线图表示的是预测值和实际值的差距,作为预测模型的重要部分,目前很多函数能绘制校准曲线。原创 2024-04-07 12:47:48 · 793 阅读 · 0 评论 -
代码+视频,R语言logistic回归交互项(交互作用)的可视化分析
交互作用效应(p for Interaction)在SCI文章中可以算是一个必杀技,几乎在高分的SCI中必出现,因为把人群分为亚组后再进行统计可以增强文章结果的可靠性,不仅如此,交互作用还可以使用来进行数据挖掘。在既往文章中,我们已经介绍了怎么使用R语言可视化visreg包对交互作用进行可视化分析(见下图)使用visreg包后我们对图形的细节掌控力不够,今天我们视频介绍使用重新绘制手动图形,这在SCI论文中非常实用,几乎可以做出所有的交互可视化,也有利于我们了解制图原理。原创 2024-03-22 10:00:48 · 3630 阅读 · 0 评论 -
代码+视频,R语言使用BOOT重抽样获取cox回归方程C-index(C指数)可信区间
BOOT重抽样在我们统计中处理数据还是很有用的,本期我们来介绍一下怎么使用BOOT重抽样获取cox回归方程C-index(C指数)可信区间,这也是一个粉丝向我问的问题,我觉得蛮有典型性和实用性的,因此就拿出来讲讲。bootstrap自采样目前广泛应用与统计学中,其原理很简单就是通过自身原始数据抽取一定量的样本(也就是取子集),通过对抽取的样本进行统计学分析,然后继续重新抽取样本进行分析,不断的重复这一过程N(大于500次以上)次,然后得到N个统计结果,然后进行区间分析,得到最终结果。原创 2024-03-15 08:28:57 · 1357 阅读 · 0 评论 -
代码+视频手把手教你R语言基于pROC包绘制多条ROC曲线
可以做ROC曲线的软件很多,如SPSS,R语言,Stata, SAS等等,既往我们已经介绍了使用SPSS制作ROC曲线,今天我们来视频介绍怎么使用R语言绘制多条ROC曲线,继续使用我们的肺炎数据(公众号回复:肺炎,可以获得数据)ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。ROC曲线主要应用于二分类结局,比如是否死亡,疾病诊断,肿瘤复发等等,可以用于自变量为连续变量的截点判定。原创 2024-02-23 08:59:27 · 2582 阅读 · 1 评论 -
代码+视频基于R语言进行K折交叉验证
可以看成是留一交叉验证的简化版,是将原始数据据随机平均分为k个子集(通常5-10个),每个子集做测试集的同时,其余k-1个子集合并作为训练 ,进行 k 次训练,取各评价指标(灵敏度、特异度、AUC等)的平均值。:是我们临床论文中最常使用到的,从数据中随机选择中随机选择70%点的数据作为训练集建立模型,30%的数据当做外部数据来验证模型的预测能力。10折交叉验证是指将原始数据集随机划分为样本数近乎相等的10个子集,轮流将其中的9个合并作为训练集,其余1个作为测试试集。基于R语言进行K折交叉验证。原创 2024-02-14 11:07:07 · 1646 阅读 · 0 评论 -
代码+视频一步到位:手把手教你R语言竞争风险模型建模-列线图-校准曲线-K折验证-外部验证- 决策曲线
我们在既往文章《手把手教你使用R语言做竞争风险模型并绘制列线图》中已经介绍了cmprsk包建立竞争风险模型和绘制列线图,但是cmprsk包功能还是相对简单一点,而且制作列线图的时候还需要对数据进行加权,对新手不怎么友好,许多人做不出来。今天我们来介绍一下QHScrnomo包,QHScrnomo是在cmprsk包的基础上将功能呢继续完善,简化流程,可以做出竞争风险模型建模-列线图-校准曲线-K折验证-外部验证-决策曲线等诸多功能,总有一款适合你。好了,废话不多说,立即开始。为竞争风险模型构建列线图。原创 2024-02-06 09:21:34 · 1300 阅读 · 0 评论 -
代码+视频,PM3包进行3组倾向评分匹配并绘制smd图
在观察研究中,由于种种原因,数据偏差(bias)和混杂变量(confounding variable)较多,倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响,以便对实验组和对照组进行更合理的比较。我们的回顾性研究都是过去的数据,很难像RCT一样进行严格的筛选出两组患者基线相近的基础资料,但我们可以通过倾向评分匹配把回归性的数据进行筛选,把基线资料相近的患者进行匹配,得到近似RCT的效果。目前,本人写的第二个R包pm3包的1.8版本已经正式在CRAN上线,用于3组倾向评分匹配,只能3组不能多也不能少。原创 2024-01-29 09:54:25 · 1637 阅读 · 5 评论 -
代码+视频,R语言forestploter包优雅的绘制孟德尔随机化研究森林图
我们今天来做个上图这样的森林图,使用的是《R语言复现一篇6分的孟德尔随机化文章》的数据,这篇文章作者直接提供了数据,所以我就直接拿来用了。作者分析了很多精神病和骨密度的结果,这里我就取精神分裂症和骨密度结果来分析。在既往文章中,我们对孟德尔随机化研究做了一个简单的介绍。我们可以发现,使用TwoSampleMR包做出来的森林图并不是很美观。今天我们使用R语言forestploter包优雅的绘制孟德尔随机化研究森林图。使用TwoSampleMR包做出来的森林图是这样的。而很多SCI文章中的森林图是这样的。原创 2024-01-26 08:58:37 · 3308 阅读 · 0 评论 -
代码+视频R语言绘制逆概率加权后的基线表
基于 PS (倾向评分)的逆概率加权(IPTW )法首先由Rosenbaum作为一种以模型为基础的直接标准化法提出,属于边际结构模型。简单来说,就是把许多协变量和混杂因素打包成一个概率并进行加权,这样的话,我只用计算它的权重就可以了,方便了许多。那么,如何将多个协变量的影响用一个倾向评分值来表示呢?根据 Rosen-baum 和 Rubin 的定义:倾向评分值为在给定一组协变量(X i )条件下,研究对象 i(i =1,2,…N)被分配到某处理组或接受某暴露因素(Z i =1)的条件概率。原创 2024-01-22 09:16:52 · 1133 阅读 · 0 评论 -
代码+视频R语言3组以上倾向评分逆概率加权(IPTW)
PS为观察单位的倾向评分值。后台有粉丝问,怎么使用R进行3组以上的倾向评分逆概率加权(IPTW),看了上面内容我们就明白,只要知道每组数据的倾向评分(也就是概率),根据公式转成权重数就可以了,和做两组的步骤基本一样,今日咱们来演示一下语言3组以上倾向评分逆概率加权(IPTW)。综上所述:倾向评分加权法首先将多个主要混杂变量的信息综合为一个变量倾向评分 ,然后将倾向评分作为需要平衡的混杂因素 ,通过标准化法的原理加权,使各对比组中倾向评分分布一致 ,则达到使各混杂因素在各比较组分布一致的目的。原创 2024-01-18 09:14:43 · 1802 阅读 · 0 评论
分享