医学数据挖掘流程(六):写报告+模型集成

本文探讨了医学研究中数据纳排和模型构建的重要性。强调基础理论的正确性,明确数据时间范围,并详细描述数据处理流程。建议使用先进的深度学习模型而非传统线性模型,并指出在建模变量选择上需谨慎,与医院沟通确认其适用性。同时,提出了模型集成的规范化方法,包括变量归一化、标签转换和交叉验证。最后,强调报告需清晰易懂,以便非技术医生理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 报告注意事项

  1. 研究方向:研究对象与目标变量是直接相关的。如果研究对象是辅助用药,或目标变量死亡是由其他疾病引起,这最基础的理论基石错了,后面一切都是枉然
  2. 明确数据时间范围。
  3. 纳排流程。一步步的数据纳排操作、数据统计结果和数据流程图。纳排发现问题,要准确描述问题、统计分析相关数据(统计频次、扩大时间范围)、并提出自己立场的解决方案
  4. 报告包括:能分析下去的报告不能分析下去的报告。要忠实于数据和操作方法,哪怕分析不下去了,就把当前的数据分析流程、结果、分析不下去的原理形成算法报告,给业务人员去做沟通。
  5. 论文思路不会的就--模仿:复现现有项目的数据格式、代码、工程 => 突破创新一点
  6. 方向思路:与team同事探讨
  7. 汇报对象:汇报对象为不明白数据的非技术医生,要注意报告书写,要让医生看懂你的叙述。
  8. 报告模板:甲氨蝶呤骨髓抑制分类模型
  9. 图表:上有图表,下有文字描述
  10. 模型注意事项
  • 最好选用state-of-the-art、深度学习模型,而不是传统的谁都会的线性模型。
  • 如果调参调不动了,几个模型最优效果相同,可以选出一个好解释的模型,调低其他模型性能。
  • 建模变量最好在10-15左右,如果有必要的话,需要在写报告之前跟医院沟通,确定建模变量合不合适、行不行得通?

2. 模型集成

  1. 建模变量名称规范化
  2. 5折交叉验证
  3. 写集成模型报告
  4. 模型集成的接口文档
  5. 保存模型+load model+预测。注意变量归一化和标签转换。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天狼啸月1990

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值