1、机器学习中的实证方法与关键问题探讨

机器学习实证方法与大模型挑战

机器学习中的实证方法与关键问题探讨

1. 机器学习中的实证方法

机器学习作为一个历经数十年探索的研究领域,近年来在人工智能的新标签下,对现代生活的诸多方面产生了影响。其目标是基于给定的训练数据,学习一个数学函数,从而对未见过的测试数据进行预测,且无需明确的编程指令。学习输入与输出之间函数关系的方法,在很大程度上依赖于数学优化方法。

优化问题通常被形式化为在给定训练数据上最小化经验风险函数,但机器学习的关键在于期望优化预测性能,以实现对未见过的测试数据的泛化。统计学习理论专门研究泛化技术的发展与分析,它可被视为机器学习的方法学基础,其核心概念还被拿来与波普尔关于科学理论可证伪性的观点作比较。甚至有人直接提出“机器学习即科学哲学”的说法。

然而,自然语言处理(NLP)和数据科学领域的实证研究实践却有所不同。大多数此类研究遵循一种范式:采用或建立一组输入表示和输出标签,并将其划分为训练、开发和测试部分。这些划分的数据被假定为来自同一分布的独立样本(即所谓的独立同分布样本)。为了满足这一假设,通常会通过随机打乱数据或经验回放等方式来人为实现数据的独立性。

这种独立同分布假设对于统计学习理论中的一致性保证至关重要,同时也体现了随机实验设计对实验控制基本原则的遵循。典型的NLP或数据科学项目流程为:先在给定的训练数据上优化机器学习模型的参数,然后在开发数据上调整元参数,最后使用标准的自动评估指标在基准测试数据上测试模型,这就是所谓的“训练 - 开发 - 测试”范式。

这个范式让研究者可以专注于提升模型性能,唯一的限制可能就是训练和重新训练复杂模型(如深度神经网络)的计算预算。但它也使得研究者无需关注数据本身、模型从数据中学到了什么,以及学习过程如何受到

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值