乳腺癌分类器程序开发指南
1. 引言
在编程中,随着我们掌握了函数以及列表、字典等新的数据结构,我们能够更好地将大型问题分解为更小、更易于管理的部分。当程序规模不断增大时,设计出易于阅读、实现和测试的程序就变得尤为重要。其中,分治法是一种通用的问题解决策略,它将一个问题分解为更小的、相互作用的部分,这些部分单独处理起来比整个问题更容易。函数在分治法中特别有用,因为程序的部分可以拆分成函数,后续再进行细化。
2. 分治法与自顶向下细化
分治法是一种有效的问题解决策略,而自顶向下细化则是实现分治法的具体方法。自顶向下的设计从一个非常高层次的解决方案描述开始,不涉及具体的 Python 代码。然后,我们将这个描述逐步细化,当确定解决方案描述中的一个合适部分时,就创建一个函数来完成该部分的任务。在初始(顶层)设计中,我们关注解决问题的“大局”,描述所需的数据结构以及可能采取的“大”处理步骤。
3. 乳腺癌分类器问题
科学家们会提供数据集供其他研究人员使用,希望这些数据能有助于解决重要问题。世界各地有许多存储库分发这些数据集,其中一个是加州大学欧文分校机器学习存储库(http://archive.ics.uci.edu/ml)。该存储库包含 177 个数据集,其中一个数据集描述了从乳腺癌患者身上切除的肿瘤。这些数据由威斯康星大学麦迪逊分校医院的 William H. Wolberg 博士提供。每个患者都进行了肿瘤活检,肿瘤组织由肿瘤学家检查,以描述组织的各种特征,并确定肿瘤是良性还是恶性。
3.1 问题描述
问题是根据肿瘤属性确定肿瘤是良性还是恶性。我们通过检查 Wolberg 博士提供的数据来解决
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



