风锐统计——让数据像风一样自由!(四)——数据处理进阶

上次给大家介绍了这款软件实操的数据处理部分,今天再给大家介绍一下数据处理模块中的另外一些功能。

1、数据处理(2)

        1)计算新变量

比如我想计算一个新变量,根据参考文献查找到变量的计算方法后,只需要在新变量值那儿输入计算公式即可,这里有一点需要注意的是,必须使用英文输入法,包括所有标点符号,我随便拿示例数据中的两个连续变量测试了一下,新变量计算的非常快。新变量生成后会直接出现在所有变量最后,变量类型也是自动识别出来的,可以直接用于统计分析。

        2)基于行值计算

除了计算新变量之外,有时我们可能需要计算两个变量的均值、中位数、总和等,软件中也有这个功能,也是一键点点点就可以出结果,非常方便。如果原始变量中有缺失,还可以选择是否处理缺失值之后再计算。

        3)连续变量处理

有时做统计分析时,需要先进行连续变量分组,比如年龄按照45,60分组或者进行4分位分组,软件都可以一键完成,分组值可以自定义,我们只需要输入后点击运行就行,出来的结果日志部分还会显示分组后每组的上下限值。

当然,连续变量中不符合临床特征的值我们也可以用异常值处理这个功能直接一键操作了。我拿BMI举例,操作起来非常简单,当然这个异常值我是随意设置的,日常工作中我们可以按照需求来设置。

许多统计分析方法(如t检验、方差分析等)要求数据服从正态分布。通过对非正态分布的变量进行转换,可以使其更接近正态分布,从而满足这些统计方法的假设条件。这个软件也给了很多选择,比如Z分数转换、log2、log10、ln转换等,还有变量的倍增、倍减以及取整值等功能,大家可以一一测试一下,个人感觉非常方便。

比如非正态分布的tg,进行ln转换之后变成正态分布的。

至于如何选择转换方法,我也做了一个总结。

除此之外,还有一个非常重要的功能就是连续变量深度描述,这个功能可以将分组后的连续变量的各个组间的缺失、均值、中位数、0%、25%以及50%分位数等都显示出来。有时候期刊要求标明分组的上下限值时,这个功能就非常实用了。

        4)分类变量处理

有时我们需要进行分类变量重编码,比如肝炎分级G0,G1、G2、G3和G4,我们可以将G0重编码为0,G1-2重编码为1,G3-4重编码为2,下面我将用示例数据中的性别中1编码为female,2编码为male,具体操作如下图。

一般软件默认将分类变量的第一组作为参照组,但是有时候我们会选择别的组作为参照组,那么分类变量relevel这个功能就派上用场了。下图结果显示,relevel之前分组排序是1、2、3、4,选择组2进行relevel后,分组排序变成了2、1、3、4。

论文撰写时有时我们还需要对不同的人群进行分组,比如我们想研究不同性别的糖尿病和非糖尿病人群间的差异,用Excel表格的筛选功能去处理就会比较麻烦,而风锐软件中的分类变量交叉分组功能就能解决这个问题。如图所示,我们交叉分组后,进行数据可视化,就能看到男性糖尿病和非糖尿病者、女性糖尿病和非糖尿病这4个不同组间的数据分布情况。

除了上面介绍的功能,风锐软件还能通过分类变量中位数转换功能对分类变量按照其来源的原始连续变量进行重新赋值。

有时原始数据中分类变量是数值型编码,我们可以对其进行标签赋值,如下图所示,我将肥胖1、2、3、4组进行标签赋值。当然,有时候,带着标签的数据在进行某些分析时容易报错,我们也可以用分类变量去标签功能将非数值编码或有标签的分类变量转为纯数值编码。

最后,这个软件还有一个功能是分类变量单热onehot编码,大多数机器学习算法(如线性回归、逻辑回归、支持向量机、神经网络等)都要求输入数据是数值型的。分类变量(如性别、种族、职业等)不能直接用于这些算法,因为它们是离散的类别,而不是数值。通过单热编码,可以将每个类别转换为一个独立的二进制(0-1)变量,从而使其适用于数值型算法。

假设有一个分类变量“教育”,取值为“高中以下”“高中”和“大学及以上”。单热编码后会生成三个新的变量:

“教育_高中以下”:如果原始值为“高中以下”,则该变量为1,否则为0。

“教育_高中”:如果原始值为“高中”,则该变量为1,否则为0。

“教育_大学及以上”:如果原始值为“大学及以上”,则该变量为1,否则为0。

如果直接将分类变量转换为数值(如“高中以下”=1,“高中”=2,“大学及以上”=3),机器学习模型可能会错误地认为“大学及以上”比“高中”大,而“高中”又比“高中以下”大,从而引入不必要的顺序关系。单热编码可以避免这种误导,因为每个类别都被独立地表示为一个二进制变量,不存在任何顺序关系。

单热编码后的变量非常直观,每个变量都明确对应一个类别。这使得模型的解释性更强,例如在逻辑回归模型中,每个哑变量的系数可以直接解释为该类别对目标变量的影响。

例如,我对肥胖这个变量进行onehot编码后,发现软件生成了Obesity1-4共4个数值型变量。

好了,关于连续变量和分类变量的处理就介绍到这儿了,大家是不是觉得这个软件的功能非常强大,如果感兴趣,大家可以下载软件试试。

官网链接:临床科学家https://pc.clinicalscientists.cn/#/index

软件下载链接:

百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.baidu.com/share/init?surl=jQTDbb8R1xFcRdVKmi1SbA&pwd=free

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值