吴恩达深度学习复盘(17)独热编码|回归树简介

独热编码(One-Hot Encoding)

简介

在之前看到的示例中,每个特征只能取一个或两个可能的值,比如耳朵形状只有尖或,胡须只有有或无。但如果特征可以有两个以上的取值该需要特殊处理。

以宠物收养中心应用程序的新训练集为例,除了耳朵形状特征外,其他数据都相同。此时耳朵形状不再只有尖和松软两种,还可以是椭圆形,即耳朵形状(ESHI)特征仍是分类值特征,但从有两个可能值变为有三个可能值。当基于这个特征进行分割时,会创建数据的三个子集,并为树建立三个分支。这时候需要新的处理方式 - 独热编码。

方法

  • 不使用原本能取多个值的耳朵形状特征,而是创建三个新特征,分别是 “这个动物的耳朵是尖的吗”“它有松软的耳朵吗”“它有椭圆形的耳朵吗”。
  • 对于每个示例,将原来的耳朵形状特征转换为这三个新特征的取值。例如,之前耳朵形状为尖的示例,现在尖耳朵特征值为 1,松软耳朵和椭圆形耳朵特征值为 0;若耳朵形状为椭圆形,则尖耳朵和松软耳朵特征值为 0,椭圆形耳朵特征值为 1 。
  • 总结该方法,即如果一个分类特征可以取 K 个可能的值(如上述例子中 K = 3),就创建 K 个新特征,每个新特征只能取 0 或 1 两个值。并且在这些新特征中,对于每一行数据(每个示例),恰好只有一个值等于 1,这就是独热编码名称的由来(因为总有一个特征的值为 1,即 “热” 的特征)。

应用

  • 经过独热编码处理后,之前关于决策树学习的方法可以直接应用于这些数据,无需进一步修改。
  • 独热编码不仅适用于决策树模型的训练,也适用于神经网络的训练。例如将脸型特征(圆形和非圆形)用 1 和 0 代替(圆形为 1,非圆形为 0),胡须特征(存在和不存在)也用 1 和 0 代替(存在为 1,不存在为 0)。通过这种方式,将所有分类特征(包括经过独热编码处理的耳朵形状特征,以及脸型和胡须特征)编码为一个由五个特征组成的列表(三个来自耳朵形状的独热编码特征,一个脸型特征,一个胡须特征),这些特征可以输入到神经网络或用于训练分类器。

总结

独热编码是一种不仅适用于决策树学习,还适用于将分类特征编码为 0 和 1 后输入到需要数字输入的神经网络、线性回归等模型的技术。

回归树

之前在讨论决策树时,主要将其作为分类算法,或者将广义决策树作为回归算法来预测数字。而回归树是另外一种问题,比如使用之前的离散值特征(X)来预测动物的重量,此时重量不再是输入特征,而是目标输出,这是一个回归问题。

回归树示例

  • 根节点基于耳形进行分割,然后左右分支有的基于脸型分割。决策树在左右分支选择相同特征进行分割是允许的。
  • 以具体的训练样本为例,如果经过训练确定了这些分割,那么在相应节点会有不同重量的动物。对于一个测试样本,决策树会根据训练样本中到达该节点的动物重量的平均值来进行预测。例如,对于具有特定耳形和脸型的动物,通过对相应节点训练样本中动物重量取平均值得到预测重量。

构建回归树的关键决策

从头构建决策树预测重量时,关键决策是如何选择分割特征。以根节点为例,可选择在耳形、脸型、胡须存在与否等特征上进行分割,分割后会得到左右分支及相应的动物和重量分布。

回归树的特征选择依据

  • 构建回归树时,不像分类问题那样试图减少熵(衡量杂质的指标),而是试图减少值(重量)的变化,即方差。方差用于衡量一组数字的变化范围大小。
  • 评估分割质量的方法与分类问题类似,计算左右分支样本的比例(W 左和 W 右),分裂后的平均方差为左分支方差乘以 W 左加上右分支方差乘以 W 右,这个加权平均值类似于分类问题中使用的平均熵。
  • 对每个可能的分割特征重复上述计算,比较方差的变化。例如,计算在耳形、脸型、胡须特征上分割后的方差变化,选择使方差减少最多的特征作为分割特征。在这个例子中,耳形特征分割后方差减少最多,所以选择耳形作为分割特征。
  • 与分类问题计算信息增益类似,回归树也测量方差的减少,即计算根节点的方差与分割后平均方差的差值。通过比较不同特征分割后的方差减少量,选择方差减少最大的特征进行分割。

回归树的构建过程

选择了分割特征(如耳形)后,得到左右两个子集,然后分别对这两个子集递归地构建新的决策树,即只关注子集中的样本,评估不同的分割特征选择,再次选择能使方差减少最大的特征进行分割,持续这个过程,直到满足不再分割的条件。

两种树总结和比较

预测目标
  • 决策树:主要用于分类问题,预测的是离散的类别标签。例如,判断一个动物是猫还是狗,或是预测邮件是垃圾邮件还是正常邮件。
  • 回归树:用于回归问题,预测的是连续的数值。像预测动物的重量、房屋的价格等。
节点划分依据
  • 决策树:通常基于信息增益、信息增益率、基尼指数等指标来选择最优划分特征和划分点,目的是减少数据的不确定性或杂质。例如在分类动物时,根据耳形、脸型等特征划分,使得划分后的子集纯度提高。
  • 回归树:在构建时尝试减少目标值(如动物重量)的方差。通过计算不同特征分割后的平均方差,选择使方差减少最多的特征和分割点,以提高预测的准确性。
叶节点输出值
  • 决策树:叶节点输出的是类别标签,代表该节点对应的样本所属的类别。
  • 回归树:叶节点输出的是一个数值,通常是该节点中训练样本目标值的平均值,以此作为对新样本的预测值。

笔者注

目前讨论的是如何处理单个决策树/回归树,实际上训练多个决策树(称为集成决策树)能得到更好的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值