第一部分 赛题回顾
1.1 赛题介绍
以主办方青梧桐公司提供的包含84个特征的1000个病患样本为基础,以是否患妊娠糖尿病为研究方向,通过对孕妇怀孕期间(孕前、孕中、孕后)基因检测的场景研究,利用大数据人工智能的手段和技术进行数据分析、建模、优化,建立一个可靠、稳定、高精度的大数据产品,最终有效预测病人患糖尿病的风险。
1.2评价指标
模型对每个样本预测的结果将与个体实际检测到的是否患有妊娠糖尿病情况进行对比,以F1为评价指标,结果越大越好,F1计算公式如下:

1.3评价方式
根据每天抽取60%(120条)的预测集进行随机评测。

本文回顾了天池精准医疗大赛的赛题,以预测妊娠糖尿病风险为目标,通过数据挖掘和机器学习技术进行建模。重点分析了特征分布、指标单调性、模型构建(如xgboost、lightGBM、catboost)以及阈值选择对模型性能的影响。最终在复赛中取得了第5名的成绩,模型在catboost上达到了0.84的AUC,并通过阈值优化提升了F1分数。
最低0.47元/天 解锁文章
2432





