第20节 R语言医学分析:某保险医疗事故赔偿因素分析

这篇博客探讨了R语言在某保险医疗事故赔偿因素分析中的应用。通过对数据集的预处理,发现数据干净,无缺失值。利用tidyverse、funModeling和Hmisc库进行分析,关注样本数、数据类型、零值、缺失值和无限值。结果显示,轻微临时损坏的赔偿最多,私人律师支付比例高,已婚人士索赔占比大,家庭医学专业和女性申请人数量居多。数值变量分析显示付款存在右偏和异常值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

某保险医疗事故赔偿因素分析

我们分析数据集“诉讼”的第一个方法是确定样本数量、变量类型、缩放/编码约定(如果有)用于验证数据清理。 接下来,数据集看起来很干净,没有缺失值,并且对于分类变量,将编码约定替换为实际值,以便更好地理解它们。 因此,私人律师、严重程度和性别变量编码约定已更新。

如下所示,首先安装并加载分析所需的库。 在本例中,我们使用了“tidyverse”、“funModeling”和“Hmisc”。 这些软件包专为探索性数据分析、数据准备、数据操作、探索和可视化而设计。 将数据集文件读入 R 以访问数据并进行分析。

图片

最好了解样本数、列数及其相应的数据类型,如下所示。

图片

下图显示了零的数量(q_zeros)、零的百分比(p_zeros)、无限值的数量(q_inf)、无限值的百分比(p_inf)、NA的数量(q_na)、NA的百分比(p_na)的摘要, 数据类型(type),数据集文件中每一列的唯一值(unique)的数量。 考虑此输出的原因是具有大量零、多个缺失值的变量可能对分析没有用,并且可能导致模型出现偏差。 另请注意,Age 有一个零值,其余数据是干净的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI拉呱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值