决策树

决策树

信息增益

信息熵

"为什么信息熵要定义成-Σp*log(p)?"

按照属性a进行分类,分类之后,每一类会存在一个信息熵,而每一类在整体样本中会占有比例,这样就形成按照属性a分类之后,获得的信息熵,H(A);H(A)于原有未分类时的信息熵H(E),是不同的,因此就会在存在信息差异。它们之间的信息差异值,就是信息增益;

而我们需要计算能产生最大信息增益的属性;

信息增益率

一个属性,能够产生的分类项越多时,信息增益肯定是会越大;

而在处理实际问题时,信息增益不是越大越好,特别在机器学习中,这涉及到一个不可泛化问题。

为了解决这样的矛盾,C4.5采用信息增益率来进行最优划分属性的选择;CART决策树,使用“基尼指数”;

信息增益率,实际上考虑了,采用属性进行划分,获得可选取值分类的数量;数量增大时,会更多的抵消信息增益值;

而获取分类的数量,在进行分类之前,是不确定的,因此需要用另一种方式来对等体现;一般采用“基尼系数”的方式;

在我们进行选择分类时,两次选中不一样分类的概率是p(k)*(1-p(k));……(TODO)

预剪枝

设定一个阈值,熵减小的数量小于这个阈值,即使还可以继续降低熵,也停止继续创建分支。

阀值获取靠经验,没有实际的方向坐标参考,因此实际效果差

后剪枝

根据已经生成的全决策树,对比剪枝前后的验证精度,确定是否剪枝

连续值处理

连续属性离散化

缺失值处理

依据缺失值比例,在整体中的比例,在分类后每个取值中的比例,等来进行处理

多变量决策树

属性进行权重组合来构建决策树;

实际就是:线性分类器+决策树

属性于属性之间的关系看待角度,决定了线性分类还是决策树分类;

可以看作,两个属性通过不同的线性分类组合,构建了一个更大的分类

 

资源下载链接为: https://pan.quark.cn/s/22ca96b7bd39 在 IT 领域,文档格式转换是常见需求,尤其在处理多种文件类型时。本文将聚焦于利用 Java 技术栈,尤其是 Apache POI 和 iTextPDF 库,实现 doc、xls(涵盖 Excel 2003 及 Excel 2007+)以及 txt、图片等格式文件向 PDF 的转换,并实现在线浏览功能。 先从 Apache POI 说起,它是一个强大的 Java 库,专注于处理 Microsoft Office 格式文件,比如 doc 和 xls。Apache POI 提供了 HSSF 和 XSSF 两个 API,其中 HSSF 用于读写老版本的 BIFF8 格式(Excel 97-2003),XSSF 则针对新的 XML 格式(Excel 2007+)。这两个 API 均具备读取和写入工作表、单元格、公式、样式等功能。读取 Excel 文件时,可通过创建 HSSFWorkbook 或 XSSFWorkbook 对象来打开相应格式的文件,进而遍历工作簿中的每个 Sheet,获取行和列数据。写入 Excel 文件时,创建新的 Workbook 对象,添加 Sheet、Row 和 Cell,即可构建新 Excel 文件。 再看 iTextPDF,它是一个用于生成和修改 PDF 文档的 Java 库,拥有丰富的 API。创建 PDF 文档时,借助 Document 对象,可定义页面尺寸、边距等属性来定制 PDF 外观。添加内容方面,可使用 Paragraph、List、Table 等元素将文本、列表和表格加入 PDF,图片可通过 Image 类加载插入。iTextPDF 支持多种字体和样式,可设置文本颜色、大小、样式等。此外,iTextPDF 的 TextRenderer 类能将 HTML、
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值