数据挖掘算法自动化设计的探索与实践
1. 手动设计算法中的人类偏差
手动设计分类算法是一项艰巨的任务,通常由分类领域的专家完成。这种手动设计方式不仅缓慢且成本高昂,还容易受到人类偏见和偏好的影响。
以规则归纳算法为例,大多数规则归纳算法具有“贪婪”特性。它们通常通过每次向部分分类规则添加或删除一个条件(属性 - 值对)来逐步构建分类规则。这种贪婪性使得它们在处理具有强属性交互的数据集时面临困难。属性交互指的是某些属性单独来看预测能力较低,但与其他属性结合时却具有较高的预测能力。
人类在学习形成概念时的方式与部分规则归纳算法的贪婪搜索在抽象层面上具有相似性。例如,在一项经典的心理学研究中,受试者被要求识别几何概念的实例,如大红色三角形或高蓝色圆柱体。研究发现,受试者最可靠的方法是保守聚焦,即找到概念的一个正例,然后每次只改变该“焦点”卡片的一个属性值,并测试这种改变产生的是概念的正例还是反例。不过,当时人们并未意识到使用这种由少量定义属性值明确界定类别的人工概念可能会使部分研究结果失效。
一旦有了自动设计规则归纳算法的方法,原则上机器设计的算法可能与人类设计的算法具有截然不同的偏差。如果这种自动化设计方法成功,机器设计的算法在某些当前人类设计算法表现不佳的数据集上可能具有更好的预测性能。
2. 自动化设计分类算法的动机
- 创新能力的体现 :遗传编程能够自动生成规则归纳算法,与现有的人类设计算法相比,这些算法至少展现出了一定的创新方面。此外,进化计算在其他应用中也有更强的“创造能力”体现。例如,使用进化算法设计的卫星天线支架吊杆,其形状对人类工程师来说很奇怪,但性能比传统
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



