1. 报告注意事项
- 研究方向:研究对象与目标变量是直接相关的。如果研究对象是辅助用药,或目标变量死亡是由其他疾病引起,这最基础的理论基石错了,后面一切都是枉然!
- 明确数据时间范围。
- 纳排流程。一步步的数据纳排操作、数据统计结果和数据流程图。纳排发现问题,要准确描述问题、统计分析相关数据(统计频次、扩大时间范围)、并提出自己立场的解决方案!
- 报告包括:能分析下去的报告和不能分析下去的报告。要忠实于数据和操作方法,哪怕分析不下去了,就把当前的数据分析流程、结果、分析不下去的原理形成算法报告,给业务人员去做沟通。
- 论文思路:不会的就--模仿:复现现有项目的数据格式、代码、工程 => 突破创新一点
- 方向思路:与team同事探讨。
- 汇报对象:汇报对象为不明白数据的非技术医生,要注意报告书写,要让医生看懂你的叙述。
- 报告模板:甲氨蝶呤骨髓抑制分类模型
- 图表:上有图表,下有文字描述
- 模型注意事项:
- 最好选用state-of-the-art、深度学习模型,而不是传统的谁都会的线性模型。
- 如果调参调不动了,几个模型最优效果相同,可以选出一个好解释的模型,调低其他模型性能。
- 建模变量最好在10-15左右,如果有必要的话,需要在写报告之前跟医院沟通,确定建模变量合不合适、行不行得通?
2. 模型集成
- 建模变量名称规范化
- 5折交叉验证
- 写集成模型报告
- 模型集成的接口文档
- 保存模型+load model+预测。注意变量归一化和标签转换。