数据挖掘
文章平均质量分 61
天桥下的卖艺者
4个R包的编写者。发布关于SPSS、R语言、stata等相关科研的文章。今后的方向聚焦于:1.机器学习和深度学习 2.各种模型算法研究 3.各种科研图形绘制 4.R语言编程和R包编写 5.数据挖掘
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Nhanes临床数据库挖掘教程1----数据库下载
21(1):292.为参照(糖尿病与肺功能之间的非线性关联:一项基于人群的研究)为参照,对数据进行下载,作者取的是2007-2012年的数据,我这里取的是2007-2008的数据。需要找到年龄、性别、种族、体重指数、血糖、FVC等相关指标,这是一个花时间的过程,需要慢慢找,先把人口统计数据下载下来看看,使用haven包的函数把数据打开。还需要关键的血糖和肺功能的指标,血糖应该在化验室指标那里,这次我们使用nhanesA包来下载。对数据进行提取,序列号都要提取,等下对数据进行合并用的。数据小的话还是很快的。原创 2022-10-24 10:27:28 · 12759 阅读 · 10 评论 -
基于R利用if语句套嵌进行多重条件判断
我们知道在R中if语句可以帮助我们进行条件判断,常用于修改变量,做出条件选择等等,对于条件为二分类的判断非常有帮助,比如我们想判断学生的成绩是否及格,60分以上算是及格ifelse(n>60,paste("及格"),paste("及格"))但是如果条件是多个选择的,比如我们想把学生的成绩分成100-90分的为优,90-80为良,80-60的为及格,60以下的为不及格。如果在python中可以使用if, elif语句进行分类,在但是R中就不这么好弄了。其实我们可以通过ifelse的格式套嵌原创 2022-01-21 08:43:51 · 20994 阅读 · 0 评论 -
R语言绘制Kaplan-Meier生存曲线
我们在临床中经常使用生存曲线来表示患者的累积生存率或发病率,如下图所示,Kaplan-Meier生存曲线能够很好的表示出患者不同时间的发病率,生存率等关键数据,让人一目了然。今天我们来演示一下如何做出像上面一样两张的图片,其中彩色的图片来自我们上次的SEER数据库的文章,题目为:Incidence, Prognostic Factors and Survival Outcome in Patients With Primary Hepatic Lymphoma。还是使用我们既往的乳腺癌数据,本来不想使原创 2021-02-26 10:39:02 · 10803 阅读 · 7 评论 -
SEER数据库中肿瘤发病率计算并绘制发病率趋势图
我们上一张已经讲过如何把提取的数据随机分组,今天来讲讲怎么使用SEER数据库计算发病率趋势,在这之前,我们先来看一篇例文,题目:Incidence, Prognostic Factors and Survival Outcome in Patients With Primary Hepatic Lymphoma作者计算了1983-2015发病率年度百分比变化和发病率走势图,使得发病率走势一目了然,是个加分项。我们今天来讲讲怎么像文章一样从SEER数据库提取发病率数据,并做出发病率走势图。首先打开.原创 2021-02-22 10:47:19 · 15548 阅读 · 10 评论 -
R语言对SEER数据库随机分为建模组和验证组
我们从SEER数据库下载到数据库后,一个很重要的步骤就是把数据库随机分为建模组和验证组,一般来说的话是用70%的数据建模,30%的数据进行验证。因为我们很难找到和SEER数据库类似的数据进行外部验证,因此只能对数据进行拆分来验证。下图这个范文,作者就是使用了数据7:3的拆分今天我们来说说怎么通过R语言来对SEER数据库按比例拆分为建模集和验证集,还是使用我们常用的既往乳腺癌的数据,先把数据导入tr1<- sample(nrow(bc),0.7*nrow(bc))##随机无放抽取bc_tr原创 2021-02-09 09:03:42 · 5703 阅读 · 15 评论 -
临床数据库挖掘系列3-手把手教你使用R语言对seer数据库清洗
从seer数据库下载到数据后,部分人会感到无从下手,这是因为数据还没有经过清洗整理,不能变成我们统计软件识别的形式,不能进行分析。今天我们手把手教你使用R语言进行seer数据库清洗,让数据变为我们所用。首先导入我们需要的R包,需要foreign,car,和stringr,需先下载好。然后我们把我们下载好的数据导入R,有20多万条,靠手工更改是不可能完成的。be<-read.csv("E:/r/test/seer4.csv",sep=',',header=TRUE)查看一下数据的名字和形.原创 2021-01-18 21:17:35 · 6069 阅读 · 1 评论 -
手把手教你使用stata做竞争风险模型
在上一期我们已经介绍了怎么使用R语言做竞争风险模型,今天我们来演示一下怎么使用stata来做竞争风险模型,stata相对r语言来说的优势就是操作相对简单,大部分功能可以通过界面操作来实现,缺点就是界面相对代码不够灵活,但是适合初学者,我们继续使用上次膀胱癌bladder1的数据集来做竞争风险模型,这样可以对比一下stata做出来的结果和R语言有什么不同。先打开stata导入数据,我们的数据不是很大,我就直接复制黏贴进去,下面就是数据的格式,数据的名称解释为:id: 患者编号;treatment(治疗方原创 2021-01-16 14:35:58 · 4538 阅读 · 12 评论 -
临床数据库挖掘系列2-使用SEER.stat软件提取数据
上一期我们已经介绍了如何使用注册SEER数据库的账号和密码,今天我们来介绍一下怎么把数据提出来。首先我们需要打开官网网页:https://seer.cancer.gov/选择seer data&software选择SEER.stat然后从左到右依次点击红色箭头处这时会跳转到另外的页面,下载软件也要提交一个申请,点击同意后把列表上内容填好发送申请就可以了,seer官网就会把软件下载的地址发送到你的邮箱,直接下载就可以了下载好后双击安装,一路点确定就可以了安装好后使用前还需要同原创 2021-01-07 08:42:49 · 10284 阅读 · 0 评论 -
手把手教你使用R语言做竞争风险模型并绘制列线图
竞争风险模型就是指在临床事件中出现和它竞争的结局事件,这是事件会导致原有结局的改变,因此叫做竞争风险模型。比如我们想观察患者肿瘤的复发情况,但是患者在观察期突然车祸死亡,或者因其他疾病死亡,这样我们就观察不到复发情况了,这种情况下不能把缺失数据仅仅当做右删失处理,这样的话会造成数据的估值错误。这是我们应该优先选择竞争风险模型来做数据分析,而不是COX回归。竞争风险模型在数据挖掘中经常使用到,我们将来在SEER数据库挖掘教程中将介绍怎么使用竞争风险模型进行数据挖掘。我们使用R语言survival自带的膀胱原创 2021-01-06 08:41:27 · 12750 阅读 · 20 评论 -
临床公共数据库挖掘系列1---seer数据库注册
对于很多没有临床数据和不会做实验的小伙伴,使用国际公共数据库进行发表论文也是一个很好的选择,简单来说就是用别人的数据来发表自己的论文。seer数据库是美国的癌症数据库,最初是用于社会保险,今年来在医学领域也有广泛的应用,seer数据库的数据非常庞大,指标众多,比TCGA癌症数据库大很多,不容易出现你发表的论文别人已经发表了这种尴尬情况,总的来说,目前seer数据库对于新手来说,还是一个挖坟不错的好数据库。我们的零基础科研课程也将准备上线整套seer数据库从注册,到数据整理,统计分析的一系列详细课程,有需要的原创 2020-12-31 10:39:17 · 6642 阅读 · 0 评论
分享