肺癌与阿尔茨海默病研究:数据规模与疾病诊断的关键挑战
1. 肺癌数据集初步研究结果
1.1 五折交叉验证的误差分析
在使用五折交叉验证处理肺癌数据集时,发现验证集大小不足以满足广义回归神经网络(GRNN)神谕方差的 95% 置信区间要求。通常期望 GRNN 神谕在 95% 置信区间(误差范围仅为 ±2.5%,最大为 5%)内工作,这样能确保神谕方差 95% 的时间处于该区间。然而,对于组合、Shedden 和 Raponi 数据集,在 95% 置信水平下,误差范围分别为 9.5%、9.7% 和 17.7%,均超出了预期的 ±2.5% 置信区间。
1.2 数据处理与结果
使用三个 CAS 算法(概率神经网络 PNN、支持向量机 SVM 和逻辑回归 LR)处理 Raponi 和 Shedden 两个公开的肺癌数据集,将这些算法的输出与一组“门”变量作为输入,输入到专门设计的集成处理器中,期望获得更准确和协同的结果。但结果显示,GRNN 神谕要么没有改善,要么仅略微改善了这些 CAS 算法处理器的性能。
这种情况主要是由于五折交叉验证分析中可用的验证集大小不足。为了改善结果,本研究认为唯一的选择是增加收集的肺癌数据量,以用于验证过程。然而,由于数据并非本研究收集,该方法不可行。尝试将 Raponi 和 Shedden 数据集组合以提高性能,但同样未成功,原因不仅在于验证数据集大小不足,还在于组合数据集可能引入了意外的中心效应,增加了误差的可能性。
1.3 研究启示
研究强调了数据库在数据分析中的重要性,无论使用何种分析工具,若数据库在大小、内容、准确性和偏差控制等方面不足,尤其是大小方面,都无法
超级会员免费看
订阅专栏 解锁全文
2742

被折叠的 条评论
为什么被折叠?



