模型评估与选择

1.概念

错误率:错误分类的样本数占样本总数的比例

精度:1-错误率,即正确分类的样本数占样本总数的比例

经验(训练)误差:学习器在训练集上的误差

泛化误差:学习器在新样本上的误差

过拟合:学习器在训练集上效果太好,而在新样本上的效果较差的现象。

模型选择:不同学习算法或者相同的学习算法,当使用不同的参数配置时,会导致不同的模型。模型选择是针对参数配置的选择。一般选择泛化误差最小的模型。

2.评估模型泛化误差的方法

留出法:将数据集分为两个相斥集合,一个作为训练集,一个作为测试集,用测试集来评估其测试误差,作为对模型泛化误差的估计。需要注意的是:数据集划分时注意保持数据分布的一致性。

(k折)交叉验证法:将数据集分为k个大小相似的数据集合,每个数据集尽可能的保持数据分布的一致性。取k-1个集合数据作为训练集,剩下的作为测试集。分别进行k组训练和测试,返回k个测试结果的均值。

3.评价标准

错误率与精度、查准率(precision)、查全率(recall),F1度量,ROC与AUC曲线

以西瓜判别为例:其真实的类别与学习器预测的类别组合可分为以下四种

真实情况预测结果
正例反例
正例TP(真正例)FN(假反例)
反例TN(假正例)TN(真反例)

查准率指p定义为P=\frac{TP}{TP+FP},即西瓜中判别正确的西瓜的比例,查全率R定义为:R=\frac{TP}{TP+FN},即真实西瓜中,有多少比例被预测出来了。真实情况中,查准率和查全率是一对矛盾体。

F1度量是根据查准率和查全率的调和平均值定义的:\frac{1}{F1}=\frac{1}{2}*(\frac{1}{P}+\frac{1}{R}),宏F1是指在各个混淆矩阵上分别计算出查准率与查全率,然后计算平均,最后得到macro-F1;微F1是指各个混淆矩阵对应的元素取平均,得到TP、TN、FN、TN在基于这些平均值计算得到micro-F1。总结起来就是,macro-F1是先求值后平均,micro-F1是先平均后求值。

ROC与P-R图相似,不同是ROC的纵轴是“真正例率”(TPR),横轴是“假正例率”(FPR),两者定义为:TPR= \frac{TP}{TP+FN},FPR=\frac{FP}{FP+TN}。与P-R图相似,若ROC曲线被另一个学习器的ROC曲线完全包住,则后者对应的学习器的性能优于前者,或者比较曲线包围的图形面积大小即AUC(Area Under ROC Curve),评判学习器的好坏。

4.偏差与方差

方差(var)={\left (预测值-期望预测值 \right )}^2var=E\{(\hat{y}-\bar{\hat{y}})^2\}bias=(\bar{\hat{y}}-y)

泛化误差=偏差+方差+噪声之和  

 

资源下载链接为: https://pan.quark.cn/s/22ca96b7bd39 在 IT 领域,文档格式转换是常见需求,尤其在处理多种文件类型时。本文将聚焦于利用 Java 技术栈,尤其是 Apache POI 和 iTextPDF 库,实现 doc、xls(涵盖 Excel 2003 及 Excel 2007+)以及 txt、图片等格式文件向 PDF 的转换,并实现在线浏览功能。 先从 Apache POI 说起,它是一个强大的 Java 库,专注于处理 Microsoft Office 格式文件,比如 doc 和 xls。Apache POI 提供了 HSSF 和 XSSF 两个 API,其中 HSSF 用于读写老版本的 BIFF8 格式(Excel 97-2003),XSSF 则针对新的 XML 格式(Excel 2007+)。这两个 API 均具备读取和写入工作表、单元格、公式、样式等功能。读取 Excel 文件时,可通过创建 HSSFWorkbook 或 XSSFWorkbook 对象来打开相应格式的文件,进而遍历工作簿中的每个 Sheet,获取行和列数据。写入 Excel 文件时,创建新的 Workbook 对象,添加 Sheet、Row 和 Cell,即可构建新 Excel 文件。 再看 iTextPDF,它是一个用于生成和修改 PDF 文档的 Java 库,拥有丰富的 API。创建 PDF 文档时,借助 Document 对象,可定义页面尺寸、边距等属性来定制 PDF 外观。添加内容方面,可使用 Paragraph、List、Table 等元素将文本、列表和表格加入 PDF,图片可通过 Image 类加载插入。iTextPDF 支持多种字体和样式,可设置文本颜色、大小、样式等。此外,iTextPDF 的 TextRenderer 类能将 HTML、
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值