论文读后感,关于机器学习实践过程中应该注意的问题

本文是对机器学习实践中应注意问题的论文阅读感悟。强调了模型选择应遵循的简单性原则、避免数据泄露、确保独立同分布等。在数据量有限时,需尝试多种模型并比较效果;数据量大时,要根据先验知识选择模型。正则项的选择应与任务需求匹配,关注数据质量,选择适合数据量和维度的算法,并注意全局归一化和多重共线性问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 以下是我读一些关于机器学习注意的问题的相关论文的自己的理解。

首先是几条总的原则:

1,.越简单越好,是建立在模型同等解释力度的基础上的。

2.数据泄露的问题,评估的时候不能用测试数据去优化模型,或则说一般而言,不能即做测试有做训练(但是有那种预测

完后回馈改进的模型存在)

3.抽样偏差,意思就是务必满足独立同分布,训练集和真实数据集应满足独立同分布,比如你对美国人民做民意调查,你不能只调查富人。

     然后对于一个具体的机器学习任务而言,当我们数据比较少的时候,没得说,合理的方法是一个一个试各种模型,对它们的效果进行比较后再选取最佳模型,但是如果数据量比较大,显然就可能遇到时间上的瓶颈。而这就需要我们根据一些先验知识主观的选择模型算法,这个时候,我们应该注意什么呢?
1.正则项并不单就是控制模型复杂度的一个惩罚,它蕴含的意义是我们对模型的一个期望,你是希望它复杂度低呢,还是希望求出来的模型参数具有稀疏解呢。所以我们必须结合当前的学习任务去选择合适的正则项。而不是看到一个算法很顺眼就拿来用就ok。
2.注意数据质量的问题,如果数据质量差,存在大量异常噪声数据,我们就应该选择一些鲁棒性健壮性的算法。
3.当数据量相较数据维度比较小的时候,不要选择模型复杂度大的算法(复杂指的是算法假设的模型空间大),因为复杂度越大,所需要的数据会越大,所以有很大概率学习不到合适的模型。
4.注意全局归一化:比如说线性回归,每维特征的数值区间大小范围各不同,因此使得实际上在目标函数中不同的特征实际的贡献度不同,数值范围绝对值越大的特征,对结果的影响越大,每个vector拆开来看就相当于这一维的特征自带了一个权重大的hyper parameter。对每维特征各自归一化,相当于平衡了各自的权重,使得同个feature space上每个feature对目标函数和结果的影响度是相同的。
5.multi-collinear,不晓得肿么翻译,比如说我们做线性回归用两个变量X1,X2,真实的模型是Y = X1+X2,然后如果X1,X2是multi-collinear的话,Y = 2X1 , Y = 99X1 - 97X2和Y = X1+X2是相同模型。当然我感觉这个很少见吧,但又感觉如果你选择特征的时候找到那种效果比较重复的特征,比如说你去用面积大小,共几间房去预测房价,但其实一般而言面积越大,房间越多,所以这两个特征可能在一定程度上就multi-collinear。而由这引发的问题就是这么多模型都合适选哪一个,并且我们常规理解的线性模型中w越大的对应特征越重要就不成立啦。

资源下载链接为: https://pan.quark.cn/s/22ca96b7bd39 在 IT 领域,文档格式转换是常见需求,尤其在处理多种文件类型时。本文将聚焦于利用 Java 技术栈,尤其是 Apache POI 和 iTextPDF 库,实现 doc、xls(涵盖 Excel 2003 及 Excel 2007+)以及 txt、图片等格式文件向 PDF 的转换,并实现在线浏览功能。 先从 Apache POI 说起,它是一个强大的 Java 库,专注于处理 Microsoft Office 格式文件,比如 doc 和 xls。Apache POI 提供了 HSSF 和 XSSF 两个 API,其中 HSSF 用于读写老版本的 BIFF8 格式(Excel 97-2003),XSSF 则针对新的 XML 格式(Excel 2007+)。这两个 API 均具备读取和写入工作表、单元格、公式、样式等功能。读取 Excel 文件时,可通过创建 HSSFWorkbook 或 XSSFWorkbook 对象来打开相应格式的文件,进而遍历工作簿中的每个 Sheet,获取行和列数据。写入 Excel 文件时,创建新的 Workbook 对象,添加 Sheet、Row 和 Cell,即可构建新 Excel 文件。 再看 iTextPDF,它是一个用于生成和修改 PDF 文档的 Java 库,拥有丰富的 API。创建 PDF 文档时,借助 Document 对象,可定义页面尺寸、边距等属性来定制 PDF 外观。添加内容方面,可使用 Paragraph、List、Table 等元素将文本、列表和表格加入 PDF,图片可通过 Image 类加载插入。iTextPDF 支持多种字体和样式,可设置文本颜色、大小、样式等。此外,iTextPDF 的 TextRenderer 类能将 HTML、
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值