挑战7天完成NHANES
Day 1!
今天发起一个全新的挑战,挑战7天完成一篇NHANES数据库SCI!
今天的主要任务就是初步检索+确定目标期刊。
NHANES数据库全名叫National Health and Nutrition Examination Si Urvey,是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。项目每年调查一个全国代表性的样本,约5000人。NHANES访谈部分包括人口统计学、社会经济学、饮食和健康相关问题。体检部分包括生理测量、实验室检查等内容。
数据量特别的大,涉及的相关指标很多,可以适合各个不同的科室的朋友来挖掘写作,所以近些年非常多的火热,我也来试试水,嘿嘿
我首先就用简单的“NHANES”进行了初步的检索,发现目前文章非常多,高分文章不少,仔细看了看,基本集中在5分-10分居多,而且基本都是1区2区,还是可以的。因为我最近对抑郁症恰好比较感兴趣,就打算做关于抑郁症文章,又去检索了“NHANES and depression”,发文数目和文章的质量都还是不错的,那就真么定啦。刚好出现在第一个文章是复旦大学最新的抑郁文章,后面全是我们之前调整的Journal of Affective Disorders,那我们就换一个目标杂志,我的目标文献就是这篇啦(DOI: 10.1080/07853890.2024.2314235),目标期刊就是Annals of Medicine。随后去深入了解了这个杂志,不是水刊,发文量和被引数都还可以,那就他啦。然后有检索了我之前就有点关注的血液指标,发现他和抑郁的关系没有被写过,所以,嘿嘿,就他啦
好啦,让我们一起探索NHANES数据库
Day 2!
我的新挑战继续进行~
第2天主要任务:数据库的认识
NHANES数据库听名字就知道和我们的MIMIC、eICU 一样是一个公开数据库,但是这个数据库的比较特别的点在于数据获取相对来说比较的简单,也就是说能非常方便的就下载到原始数据,这对我们这些“临床牛马”来说是非常利好的。之前也尝试过搞MIMIC,数据量太大了,本地安装数据库装了很久都没装上,NHANES就没有这个烦恼,可以疯狂冲锋冲锋
利用公开数据库发文章,最重要的就是要知道数据库的数据组成,他有那些数据,才能知道我可以利用些什么样子的数据进行idea构思。NHANES是关于营养调查的健康和营养的信息,是一个横断面的调查。从网站上我们可以看到,数据内容是非常丰富的。里面有不同的年份,比如“2013-2014”,我们叫一个周期,因为NHANES每2年上传一次相关数据。每一个周期里面有很多数据,但是我们主要利用的是(Data, Documentation, Codebooks),里面是包括了人口统计学、饮食数据、体格检查、实验室数据、问卷调查和Limited Access Data,我们最常用的是前5个,Limited Access Data数据需要申请,需要的批准候才行。
点击进去后就可以看到Doc File和Data File,我们可以通过Doc File刊这个数据集的一些基本介绍,点击Data File就能下载数据,然后利用R或者SPPS就能打开这个XPT的数据集文件
因为后面也会用得到NHANES里面的数据,所以我花了一些时间把所有的周期的所有数据全部下载完了哈哈哈。这个工作量还是很大的
好啦,今天的分享就到这里啦!
Day 3-4!
进度汇报:数据下载+数据清洗。
Day2的时候我把所有的数据都下载好了,现在就是数据清洗啦,任何一个公开数据库最费时费力的就是数据清洗了我打算用R来获取相关的数据。获取的数据可以用来构建一个自己的数据库,我换个指标,即换个指标、换个研究人群,就又能有一篇新的文章。
在提取变量之前我们需要确定需要提取什么数据,你重点关注的指标(X),和关注的疾病(抑郁,Y),还有一些协变量(Z),具体需要哪些协变量可以根据既往的文献中获得。我就提取了:年龄、性别、种族、教育程度、婚姻状况、贫困收入比率、体重指数(BMI)、肾小球滤过率(eGFR)、睡眠持续时间、饮酒、吸烟状况、心血管疾病、高血压、糖尿病、高脂血症和抗抑郁药使用。所以说,数据提取是公开数据库中最费时费力的,但是有代码的话,也还好,毕竟一二区的文章也不是大风刮来的
使用代码提啊提,终于用了2天的时间搞完了因为比如说高血压看起来只有是和否,但实际上定义有很多:目前正在口服降压药或血压大于140/90mmHg,其中血压值是由受过培训的人员连续测量三个血压读数,并计算这三个读数的血压平均值。那么也就意味着,需要提取更多的数据来综合组成这个协变量。工程还是很浩大滴
只要数据清晰了,后面的一切都好说,没什么复杂和困难的,重点就是选题(选择指标和idea)+数据提取。这就是我花了很多的时间进行初步检索确定目标期刊、选题的意义,千万不要一来就闷头开跑,
一起加油呀~
Day 5!
进度汇报:完成Table和Figure
数据已经整理好啦,那现在就是做出Table和Figure。在具体操作之前呢,肯定要再去看文献啦。模仿文献一步一步来就好啦。常规NHANES文章就是需要下面这些,当然,我们也会看到有很多文章会有一些其他的处理,比如加上了机器学习呀,本质上还是这个思路,只不过在暴露的选择、分析方法会有一些差异。万事开头难,我们就先学会这种最简单的思路,后面我们慢慢学习和挑战别的
Figure 1:研究人群-------数据来源过程
Table 1:基线资料表-----人群基本信息描述
Table 2:回归分析---X与Y之间有无关系
Figure 2:限制性回归样条--X与Y的剂量效应关系
Table 3:亚组分析---敏感性分析
Figure 1:就是简要说明我们的筛选数据的流程,比如说2013-2014总计有10175例,根据我纳入条件(年龄大于20岁,同时具有抑郁评分和暴露某某血清学指标)进行纳入和排除,最终纳入1900人。
本质上就是数据的筛选和清洗流程,对数据处理的过程进行简单的可视化呈现。
Table 1:就是基线资料比较。比如我的结局是抑郁,那我就可以列分为depression组和non-depression组,对比两组之间的基线资料的差异,变量数据类型是连续变量或者分类变量,那就用t-检验或者卡方检验等。
Table 2:回归分析。根据纳入协变量的多少构建3个不同的模型以评估暴露和结局之间的关系的是否稳健。Crude Model中不纳入协变量;Model I纳入人口统计学(性别、年龄、种族、婚姻、教育程度等);Model II纳入Model I中+疾病(糖尿病、高血压、高脂血症等)+生活方式(吸烟、饮酒、BMI等)。
Figure 2:RCS结果呈现。X和Y是相关的,那么他们是有什么样的剂量效应关系呢?直线?L型?N型?J型?这些都可以通过RCS曲线非常直观的看到,而且会检验线性和非线性关系,如果是非线性关系还会找到对应的拐点值。P for none-linear<0.05就说明是非线性的。
RCS是这种类型文章的核心,一定要会看哦!
Table 3:亚组分析。X与Y的关系会不会在不同的亚组中存在一定的差异呢?就举个例子,儿童的抑郁风险和成年人的抑郁风险肯定是不一样的,做亚组分析就是看X与Y在不同组别(性别,年龄,有某种疾病)关系是否依旧稳健存在,如果有差异,能否通过目前文献进行合理的解释。
这就是NHANES文章的主要结果啦,因为已经整理好了数据,后面的分析实际上是非常简单的,选题和整理数据才是最费时间的,也是容易浮躁滴,静下来,方向对了,就一定能出成果。
今日份挑战成功,欧耶
Day 6-7!
进度汇报:完成文章写作+投稿
表格和图片就完成啦,后面就是写作。写作是最简单的哈哈,《框架写作法》嘎嘎一顿狂写
我又不是“芒果”,所以夜班把电脑带去了科室,疯狂输出写作,情绪一下子就到位,写的太入神了,有个大妈喊了我好几声我竟然都没听见。然后大妈说:你们医生辛苦、就是有水平,我孙女当年就是没考上某某大学医学院,遗憾的很,然后找了个学医的男朋友,我emmmmmm然后哈哈哈
按照我们之前挑战Meta和MR的经验来说,一般1天能写完初稿,,而且其实我在挑战之初就已经在写方法了,所以把跑出来的图片和结果放进去,然后模仿我的目标文献就好啦~
光速中文成稿后再翻译+润色+投稿前准备
挑战成功!!