医学图像与社交媒体文本分析的技术探索
1. 视网膜血管分离技术
1.1 决策树集成模型
决策树集成模型基于决策树概念构建,由一组分类与回归树(CART)组成。在CART中,每个叶节点或内部节点代表一个测试,现有数据被分类到不同的叶节点,并赋予相应叶节点的分数。与普通决策树不同,CART的叶节点包含与之关联的真实分数,这使得其解释能力超越了简单的分类。
通常,单个决策树在实际应用中效果不佳,因此采用集成模型,将多个决策树的预测结果相加。随机森林和集成学习都以树集成作为共同特征,但训练方式不同。提升(Boosting)以迭代方式从单个决策树或“弱学习器”构建模型,与随机森林不同的是,它并非完全基于数据或特征的随机子集构建单个模型,而是按顺序对单个模型赋予更多权重,即从过去的错误中学习。提升算法不仅性能高,训练时间和模型规模也较小,因此可作为深度学习算法的替代方案。为优化普通提升算法,它采用计算二阶梯度来确定梯度方向的技巧,并使用L1和L2正则化防止过拟合,并行处理使其速度极快。
1.2 有影响力特征的选择算法
由于DRIVE数据集中只有20张图像,数量较少,因此需要谨慎处理数据集。具体步骤如下:
1. 定义41种不同的滤波器或提取技术。
2. 对每张图像进行处理并展平。
3. 基于每张图像的横截面数据训练一个模型,共创建20个模型。
4. 用所有图像(20张)对每个模型进行测试。
5. 根据平均准确率,选取前3N/4(即总数的75%)的图像作为训练集,其余5张作为测试集。这种方法尽可能减少了异常值的影响。
6. 构建模型后,进一步修改以过滤掉不太重要的特征。集成学习相对于深度学
医学图像与社交文本分析技术
超级会员免费看
订阅专栏 解锁全文
898

被折叠的 条评论
为什么被折叠?



