麻省理工公开课11 学习:识别树、无序

如何识别吸血鬼?

考虑这些样本数据:(影子那项有些是?,是因为有些人晚上出没,不知道是否有影子)
请添加图片描述

数据特点:

  • 这不是数值数据,是符号数据(没有0.7个影子)

  • 有些数据无关紧要

  • 有些特征只在某些时刻有用

  • 测试代价cost

识别树

一次测试,有三个结果,这三个结果中可能有一个需要进行另一次测试

请添加图片描述

什么叫一个好的识别树?

希望它比较小(因为考虑到cost,并且simple can be useful)

如何将测试安排到测试树里,完成识别任务?

先来看样本表格中测试对应的结果

请添加图片描述

希望生成同质子集(子集中只有同一种样本),评价标准设为同质子集中样本的个数。

由此看来,影子测试最合适。

对于不确定影子的样本,只关注剩下的信息。
请添加图片描述

继续评估测试效果,大蒜测试最合适。

请添加图片描述

识别树就设计完了。
请添加图片描述

优点:

不需要使用所有测试,只需要用有用的测试,代价更小。

大数据集怎么办?

大数据集没办法一开始就得到同质子集。所以需要测试分支底端得到集合的无序程度。

例如,一堆二进制编码怎么测量无序程度?——计算熵。这是信息论中的方法。

公式:
D(ser)=−PTlog⁡2PT−NTlog⁡2NT D(ser)=-\frac{P}{T}\log_{2}\frac{P}{T}-\frac{N}{T}\log_2\frac{N}{T} D(ser)=T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值