- 博客(204)
- 资源 (1)
- 收藏
- 关注
原创 举例谈谈数据收集的“主题性”
收集数据的技巧也是数据分析技巧的一部分。人口统计学信息:年龄(age,单位:years)性别(gender)住院相关:住院时长(the duration of the hospital stay)ICU 住院天数(ICU Hospitalization Days)临床结果相关:28 天的临床结果(clinical outcomes at 28 days)生命体征:心率(Heart Rate,单位:beats per minute)
2025-04-03 12:51:10
848
原创 一个卒中继发癫痫的数据集和初步分析
一、并发症uremia - 尿毒症dvt - 深静脉血栓形成fatty_liver - 脂肪肝疾病或肝脂肪变性diabetes - 糖尿病hypertension - 高血压coronary_disease - 冠状动脉疾病atrial_fibrillation - 一种心律失常,即心房颤动cerebral_hernia - 脑疝,大脑从正常位置移位的病症hydrocephalus - 脑积水,大脑中脑脊液过多的情况。
2025-04-02 15:32:22
1017
原创 模型解释的另一个选择--Dalex
当使用 type=‘dropout_loss’ 时,y 轴代表的是模型效能的变化,也就是移除某个特征后模型性能的下降程度。SHAP分析是最流行的模型解释的包,是模型解释的标杆,可以进行全局性解释和局部解释,对标SHAP,Dalex是另外一个功能比较齐全的python包,采用不同的算法,是SHAP之外的选择。条件依赖图展示了在特定特征值下,模型预测结果的分布情况。Dalex包功能是比较齐全,常用的全局性和局部性解释功能可以实现SHAP的功能,只是算法不同,而变量层面的解释功能,感觉可解释性不如SHAP。
2025-04-02 13:21:11
263
原创 交互作用分析体会总结
交互作用分析的内容不多,往往占的比重也不大,单独作为研究的主要内容并不适合,还是要和其他的研究进行整合。也不好说全对,供大家参考。三种交互作用分析的项目可以在和鲸社区搜索“交互作用”获得。
2025-03-30 11:18:54
286
原创 交互作用扫描的另外一个选择--vivid包(R)
之前的帖子使用了批量扫描变量间交互作用的包-iml的interaction函数,在其中“交互作用通过弗里德曼H统计量(H平方检验统计量的平方根)来衡量,其取值范围在0(无交互作用)到1之间(1表示因交互作用导致的f(x)标准差达到100% )”。如下图所示(图中变量并没有交互作用)。除了iml包,vivid包也是一个可以进行交互作用扫描的R包,并且提供了更加丰富的可视化选择,在这里进行介绍。虽然常听说交互作用分析,但是在个人尝试的几个医学数据集中还没有发现明显的交互作用,所以在此只做技术上的探讨。
2025-03-26 12:28:23
188
原创 从技术角度看交互作用分析
以上步骤整合在一起,SHAP分析中对交互作用的筛查,结合传统的使用P值对交互作用进行定性,形成一个相对完整的交互作用分析过程。还有interactionR和epiR包可以用来进行交互作用的分析,要求参与分析的两个变量是二分类变量,可以尝试进行探索。
2025-03-19 16:41:05
182
原创 绘制列线图并解释线性模型的Python包-nomogram-explainer(记我的第一个pypi项目)
SHAP分析是目前可以对预测模型同时进行全局性和局部性两种解释唯一的包,其它的包要么仅能进行局部解释,比如LIME,要么只能进行全局性解释,比如xgboost的变量重要性。列线图(算法)是展示线性模型的一种算法,目前在了解该算法的基础上,我用python的pyplot包绘制了列线图,过程中发现该算法可以发展成为解释线性模型的工具,且可以进行全局性和局部性解释。撰写相关代码期间,也曾分享过代码,但是总觉得不够方便,最后,在AI的辅助下,也终于把相关的代码上传到pypi来发布。绘制列线图,使用plotly包构建
2025-03-09 20:04:49
752
原创 Python绘制数据分析中经典的图形--列线图
列线图是数据分析中的经典图形,通过背后精妙的算法设计,展示线性模型(logistic regression 和Cox)中各个变量对于预测结果的总体贡献(线段长短),另外,线段上有刻度,使得列线图兼具实用功能:在实际操作中,可以将某套待预测的变量值通过列线图转变为一个个得分,最终相加得到总得分,而总得分对应的概率轴上的刻度,就是这套变量通过预测模型得到的风险概率。
2025-03-09 19:03:06
555
原创 我的两个医学数据分析技术思路
当拿到一份数据,可以先做预分析,如果得到的相关变量较多,就可以做预测模型,如果不够多,就可以考虑独立危险因素分析。个人感觉,数据分析类的研究关键在于数据,大样本,自己收集的,有特点的数据更容易做出有意义的研究。
2025-03-06 16:47:43
768
原创 决策曲线分析(DCA)指标和作用梳理
模型和后续措施是DCA分析中两个重要的评估对象,y轴评估模型的成本和收益(净阈值和tradeoff值),x轴确定后续措施的损害和收益,单用y轴可以评估模型效率并确定决策阈值范围,而x轴和y轴结合确定具体的决策阈值。
2025-03-03 10:28:44
793
原创 AI关于SHAP分析与列线图(算法)解释线性模型矛盾之处的解释
两种解释方法在个案的局部解释方面,有矛盾之处,其背后的原理已经超出了我的知识范畴,以下是询问AI的几个问题,希望能从中梳理出一个合理的解释。我最后的结论是,列线图(算法)在局部解释方面是一种相对简化和粗糙的方法,但是如果线性模型(也是一种简化和粗糙的模型)适合处理这样的数据(模型有较高的效能),那么也就可以用列线图算法来进行解释,也就是说,如果对于数据来说,线性模型是可以接受的,那么列线图(算法)来解释模型也是可以接受的。
2025-02-28 22:05:25
949
原创 对cox模型的解释(SHAP VS 列线图算法)
对比来说,这两种解释方式得到的结果有相似的地方也有矛盾的地方,特别是局部性解释。一时间如何看待这两种解释方法,以及他们之间的矛盾,一时还没有思路,留待以后更新。
2025-02-28 15:42:47
244
原创 python绘制cox列线图及绘制指南
其实,代码本来不是想绘制列线图的,是为了用列线图算法来解释线性模型的,但是绘制好列线图也是应该的,后续在这两方面都会继续完善,欢迎大家继续关系。
2025-02-27 16:14:32
1111
原创 对cox列线图进行解析,作为后续python模仿绘制的基础
这是网上的一个Cox数据列线图,与二分类数据的列线图不同的是,这个列线图有两条概率线,分别是3年和6年的结局发生的风险概率,而各个变量的得分和总分都是固定的。所以剩下的就是弄清楚概率是如何计算出来的就可以了,推测应该是和风险预测函数有关。所以COX版本的列线图大部分和之前的列线图大部分都是相似的,代码不需要太多的改动,先测试一下lifelines是如何进行cox分析的,应该就能绘制python版本的列线图了,敬请大家期待。这个帖子主要的目的是解析cox列线图,做一些准备的工作。
2025-02-26 17:01:29
202
原创 SHAP分析解读心率和运动时长与卡路里消耗之间的关系
SHAP分析不仅仅是一种解释模型的工具,还是一种观察变量间关系的利器,让我们可以从不同的角度来观察变量间的关系,实现对变量间关系的更加全面的理解。以上的分析展示了变量间有趣的关系,关于所展示的变量间关系,对于二分类的结局变量,我们可以理解为对结局的支持程度,但是对于结局是连续变量的情况,还需要更多的讨论,这里尝试解释和大家探讨。
2025-02-26 11:41:52
875
1
原创 玩转列线图
你有什么主意让列线图变得更加有趣一点吗?目前的制作的python绘制列线图的代码已经进一步完善了,之前连续变量的标签容易挤到一起,现在可以手动进行调整,增加了颜色主题,更多的设定。
2025-02-25 14:10:49
380
原创 列线图用于线性模型的解释(一个心衰的例子)
虽然构建预测模型有很多的算法,但是线性模型一直是不可或缺的一种,线性模型具有自明性(自我解释性),一般认为展示模型中变量的系数就可以作为模型的解释,但是仔细考察,对照全局性解释和局部性解释的定义,单纯的模型系数不能相互之间比较大小,就不能说明变量的重要性,且模型系数在个案之间是一样的,不能作为局部性解释,所以我们需要发展一套算法和图形来展示线性模型的自我解释性。
2025-02-24 13:38:15
827
原创 在列线图上标记做为线性模型的局部解释
总体感觉,在列线图上改造起到一定的解释模型的作用,但是不如之前展示的使用bar图进行全局性解释和使用瀑布图进行局部解释来得直观,算是提供了一种选择。至此,虽然不完善,关于列线图和线性模型解释的想法已经差不多都实现了,后续如果有发展,就是用在cox模型上,原理是一样的,仅在实现方法生有所变化,或者和网页APP结合让局部解释的标记动态化,随着用户输入的不同而有所变化。
2025-02-23 21:08:48
212
原创 列线图算法用于解释线性模型结果展示(你更倾向于哪一种?)
设想中,列线图用于解释线性模型有两种做法,一种是在列线图的基础上进行改造,这一块并没有完全想好;另一种是借鉴列线图的算法,采用其它的图形对线性模型进行解释,这里展示的结果是后一种。
2025-02-21 22:24:16
347
原创 python版本的列线图绘制(二分类)
,总体上是类比SHAP分析,希望能实现全局解释,即比较变量之间的重要性和局部解释,即展示变量当前值对预测结果的贡献。不过,以模型解释为目的,列线图不是唯一的选择,meta_df中的值是带正负号的值,类似SHAP值,可以反映贡献的大小和方向,变量之间也是可比的,使用这个值来解释模型,也是一个考虑,直接用还是要处理一下,比如像SHAP值那样都减个平均数。今天完成的是第一步:列线图数据的计算,并且形成一个函数,输入输出可以看函数的解释,用这些数据就可以绘制列线图了,绘图部分也想着能整理成一个绘图函数。
2025-02-20 14:33:08
689
原创 列线图用于线性模型解释plot的论证
但是各个变量系数之间不可比的,比如,不能根据系数说一个变量比另外一个变量对结局更加具有影响,与SHAP分析中的shap值或者树形模型的变量重要性相比,是一种不足。列线图之所以能够比较变量间的重要性,是因为背后对线性模型的系数和变量值的乘积做了一定的标准化处理,具体来说,首先,获取各个变量系数和变量具体值乘积的最大值和最小值的差值(distance),然后将最大的distance对应的评分为100(线段最长), 其它变量按distance的比例决定各自的评分(线段的长度)。
2025-02-19 12:33:32
532
原创 使用运动心电图预测早期心力衰竭的APP
运动心电图与预测模型 APP 相结合,有望构建起更高效、精准的心力衰竭早期诊断体系。运动心电图提供了心脏在运动状态下的实时电生理信息,而预测模型 APP 则可以基于长期监测的数据,挖掘潜在的健康风险模式,实现对心力衰竭的早期预警。通过这种方式,能够让患者在症状尚不明显时就得到及时诊断和治疗,有效降低心源性猝死的发生率,为患者的生命健康保驾护航。采用xgboost算法发构建预测模型并进行评价,最后采用SHAP分析对模型的预测结果进行解释。通过Boruta变量筛选工具筛选到结局变量相关的预测变量;
2025-02-18 12:57:22
750
原创 ICU患者预后deepseek预警系统临床影响力研究Protocol
临床影响力研究是AI工具进入临床的最后一步,是在其效能被认定为合格之后的临床研究,所以在临床影响力研究中不应再关注AI工具的预测是否准确这个问题,而是以患者的预后等为主要评估指标。
2025-02-18 10:14:00
953
原创 临床预测模型APIs分享文档(目前数量2)
临床预测模型API 可以理解为是以API形式部署的临床预测模型,区别与可视化的形式,可以更加灵活地用在各种应用场景下引用,比如现在流行的LLM。目前将两个预测模型部署为API,模型效能良好,并给出SHAP分析得到的变量对结局的贡献。可以引用API构建相关的应用用在生产环境中,也可以学习构建类似的API预测模型。应用演示:https://stdiabetes.streamlit.app/使用中有任何的问题可以联系作者。
2025-02-18 09:43:03
263
原创 AI 诊疗是经验医学还是循证医学?
尽管 AI 在医疗领域展现出巨大潜力,能够从海量诊疗数据中挖掘规律,但这并不意味着未来就不再需要循证医学。从数据层面看,AI 分析的诊疗经验数据虽庞大,但存在局限性。这些数据往往是在真实医疗环境下收集的,存在数据不完整、不准确的情况。例如,部分患者的病史记录可能缺失关键信息,或者由于测量误差导致生理指标数据有误。而循证医学所依赖的临床研究数据,是在严格控制的试验条件下获取的,数据质量更可靠。
2025-02-17 11:38:20
577
原创 高血压危险因素分析(项目分享)
高血压作为一种极为常见的慢性疾病,正严重威胁着大众健康。它的发病机制较为复杂,涉及多个方面的因素。在一份临床采集的数据的基础上,我们通过数据分析手段深入观察一下 BMI(身体质量指数)、年龄、空腹血糖、总胆固醇以及尿酸水平,为进一步探讨它们与高血压之间的紧密联系奠定基础。如下图所示,BMI对高血压的贡献最大、其次是年龄、总胆固醇、空腹血糖、尿酸和肾小球滤过滤,性别对高血压贡献有限。接下来我们深入观察各个因素与高血压之间的关系。
2025-02-15 20:38:48
952
原创 我用AI做数据分析之结果解释和其它
数据分析的最后一环是对数据分析结果的解释,并整理成数据报告,这也是LLM所擅长的环节, LLM又可以理解各种形式的结果,只需要把结果拷贝到对话框中,让其解释即可。
2025-02-15 10:25:37
1246
原创 直肠癌远处转移预测模型临床影响力研究Protocol
举例说明AI工具,包括LLM模型和临床预测模型,的临床影响力研究的流程,这是AI工具进入临床实践之前必要的评估流程,如果AI工具与现有的临床工具相比,有正面的临床影响力,即可以使患者收益或者提高效率、节约资源,才可以进入临床实践。需要说明的是,AI工具的临床影响力也可能是负面的,所以临床影响力研究的初期,需要小规模的研究以确定AI工具不是有害的。临床影响力研究主要采取随机对照的研究,一组使用AI工具,另外一组使用传统的方法,两组对比考察AI工具的临床影响力。
2025-02-13 14:12:53
604
原创 AI 工具相关的临床研究或是不久将来主要的临床研究内容之一
人工智能(AI),比如deepseek等,正以前所未有的速度渗透到各个领域,医疗行业也不例外。AI 相关工具的临床研究,已然成为未来临床研究领域的关键方向,承载着推动医疗变革的重要使命。目前,在医疗实践中,不少医院的医生已经敏锐地捕捉到 AI 的潜力,私下将其应用于诊断、报告撰写等工作环节。AI 凭借强大的数据处理和分析能力,能够快速识别疾病特征、辅助医生做出更精准的判断,大大提高了工作效率。
2025-02-13 12:32:21
550
原创 异位妊娠唯一相关的是年龄(U型曲线)
异位妊娠,俗称宫外孕,是指受精卵在子宫体腔以外着床发育的异常妊娠过程。正常情况下,受精卵会在子宫内着床并发育成胎儿,但在异位妊娠中,受精卵却在输卵管、卵巢、腹腔等子宫以外的地方 “安营扎寨”。其中,输卵管妊娠最为常见,约占异位妊娠的 95%。本数据集名为 ‘ectopic.xls’,包含了一个工作表,名为 ‘Sheet1’。工作表 ‘Sheet1’ 含有 2060 行,15 列,数据集包含如下字段:patient_id:患者编号,用于唯一标识每个患者,数据类型为 int64。
2025-02-12 20:16:18
759
原创 我用AI做数据分析之四种堆叠聚合模型的比较
AI数据分析需要的四个能力中,代码执行部分是短板,但是借助AI,我们已经能做一些能力之上的事情,基础的事情AI已经能做了,把AI这些基础的能力整合起来,规划一些多步骤的任务说明一定的问题,可能更有意义。项目代码:https://www.heywhale.com/mw/project/67abfca747828d409e8090ea。
2025-02-12 12:45:09
1115
原创 孤立森林排除“异常值”可以提高模型效能?
排除异常值可以让数据集的分布相对更加集中,更有利于算法的拟合,所以,设想是适当地去掉异常值,可以提高模型的效能。为了证明以上的设想,使用两个数据集来分别在排除异常值前后构建模型并评估效能。
2025-02-10 21:13:40
356
原创 声音属性与阿尔海默氏病的诊断(项目分享)
属性信息:矩阵列条目(属性):name - 受试者姓名及记录编号(ASCII 格式)MDVP:Fo (Hz) - 平均发声基频MDVP:Fhi (Hz) - 最大发声基频MDVP:Flo (Hz) - 最小发声基频MDVP:Jitter (%)、MDVP:Jitter (Abs)、MDVP:RAP、MDVP:PPQ、Jitter:DDP - 基频变化的几种测量指标。
2025-02-10 12:01:57
545
《一个临床数据收集/调查问卷APP》配套源代码
2024-10-28
依托SHAP值的COX版本的变量间关系描述:boruta+treeshap+立方样条拟合
2024-10-08
shiny APP 实现 tidymodels代码驱动的xgboost 模型构建、超参数调节和后概率校准
2024-10-08
食管癌远处转移机器学习web app+shiny源代码+R语言
2024-08-29
构建的Boruta+SHAP分析+立方样条回归R语言shiny应用
2024-05-08
yuce-1.0-armeabi-v7a-debug.apk
2021-07-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人