机器学习中的训练集、验证集和测试集

本文介绍了有监督机器学习中数据集的划分方法,通常分为训练集、验证集和测试集,分别用于训练模型、调整参数和评估性能。并讨论了实际应用中常见的划分比例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在有监督(supervise)的机器学习中,数据集一般被分成2~3个,即:训练集(train set) 、验证集(validation set) 测试集(test set)。

三个集合的定义为:

Training set:A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier. 

Validation set:A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network. 

Test set:A set of examples used only to assess the performance [generalization] of a fully specified classifier. 

||||

训练集:学习样本数据集,通过匹配一些参数来建立一个分类器。建立一种分类的方式,主要是用来训练模型的。

验证集:对学习出来的模型,调整分类器的参数,如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。

测试集:主要是测试训练好的模型的分辨能力(识别率等)、推广能力。

 

一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取。

 

但实际应用中,一般只将数据集分成两类,即training set 和test set,大多数文章并不涉及validation set。

 

 

【Reference】

1. http://blog.youkuaiyun.com/losteng/article/details/50766252

2. http://www.cnblogs.com/xfzhang/archive/2013/05/24/3096412.html

### 如何在 VS Code 中使用 Jupyter Notebook 要在 Visual Studio Code (VS Code) 中高效地使用 Jupyter Notebook,可以按照以下方法操作: #### 安装扩展 首先,在 VS Code 中安装官方的 **Python 扩展** 和 **Jupyter 扩展**。这些扩展提供了对 Python 文件的支持以及内置的 Jupyter 功能支持[^1]。 #### 配置虚拟环境 如果项目依赖于特定的虚拟环境(如 `venv` 或 `Pipenv`),可以通过以下方式设置: 1. 使用命令面板 (`Ctrl+Shift+P`) 输入并选择 **Python: Select Interpreter**。 2. 从列表中选择所需的虚拟环境或全局解释器。 3. 如果未列出目标环境,则可能需要手动创建该环境或将路径添加到配置文件中。 #### 加载和运行 Notebooks 当打开 `.ipynb` 文件时,VS Code 自动切换至交互式笔记本视图。此时可以直接执行单元格中的代码片段,并查看实时输出结果[^4]。 对于新创建的 Notebook 文件: - 可通过菜单栏选项 (**File -> New File**) 创建空白文档; - 或者利用模板快速搭建框架结构。 #### 解决库导入失败问题 有时可能会遇到某些第三方包无法正常加载的情况(例如引用[2]提到的关于 Scikit-Learn 的疑问)。这通常是因为当前活动的工作区缺少必要的依赖项或者存在版本冲突等问题。建议采取如下措施排查原因: - 确认所选解释器已正确安装所需模块; - 尝试重新激活对应环境后再尝试一次; - 更新 pip 工具链以获取最新补丁修复潜在漏洞。 另外值得注意的是,在 Linux 发行版比如 Ubuntu 上部署服务端程序前还需要额外注意权限管理等方面的要求[^3]。 ```python import sys print(sys.executable) ``` 上述脚本可以帮助确认实际调用哪个 python 实例来解析指令流从而进一步定位具体位置上的差异点在哪里。 --- #### 快捷键优化体验 为了提升工作效率还可以自定义一些常用功能对应的热键组合方便日常频繁调用场景下节省时间成本。例如针对不同平台特性分别设定适合个人习惯的操作序列等等。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值