1、如何定义机器学习?
以下是调整为 Markdown 格式的文本内容:
机器学习是对计算机进行编程,使其能够从数据中学习的科学(和艺术)。还有一个更通用的定义:
机器学习是让计算机在无需明确编程的情况下具备学习能力的研究领域。
2、请列举四个机器学习表现出色的应用领域。
垃圾邮件检测、语音识别、辅助人类学习、数据挖掘
3、最常见的两种监督学习任务是什么?
最常见的两种监督学习任务是 分类 和 回归 。
-
分类 :
例如垃圾邮件过滤器,根据给定的示例邮件及其类别(垃圾邮件或正常邮件)进行训练,以对新邮件进行分类。 -
回归 :
根据一组特征(如里程、车龄、品牌等)预测目标数值,如汽车的价格。
4、你会使用哪种类型的算法将客户分割成多个群体?
可以使用聚类算法,如K - Means、DBSCAN等。
5、你会将垃圾邮件检测问题归类为有监督学习问题还是无监督学习问题?
应该将垃圾邮件检测问题归类为 有监督学习问题 。
垃圾邮件过滤器是有监督学习中 分类任务 的一个典型例子,它通过大量带有类别(垃圾邮件或正常邮件)的示例邮件进行训练,从而学习如何对新邮件进行分类。
6、什么是核外学习?
在线学习算法可用于在无法装入一台机器主内存的巨大数据集上训练模型,这种方式被称为 核外学习 。
算法会加载部分数据,对该数据进行一轮训练,然后重复此过程,直到处理完所有数据。
7、哪种类型的算法依靠相似度度量来进行预测?
使用通过相似度函数计算得到的特征来处理非线性问题的算法依靠相似度度量进行预测,如:
- 使用高斯径向基函数(Gaussian RBF)添加相似度特征的方法
- 使用高斯RBF核的SVC类算法
8、模型参数和模型超参数有什么区别?
以下是调整为 Markdown 格式的文本内容:
模型参数是模型学习得到的参数;超参数是学习算法的参数,不是模型的参数,不受学习算法本身影响,必须在训练前设置且在训练期间保持不变,例如正则化超参数、批量大小等。
9、如果你的模型在训练数据上表现出色,但对新实例的泛化能力很差,这是怎么回事?请列举三种可能的解决方案。
这意味着模型对训练数据过拟合。三种可能的解决方案是:
- 简化或正则化模型
- 获取更多训练数据
- 清理训练数据
10、什么是测试集,为什么要使用它?
测试集的作用与重要性
测试集是从数据集中随机选取的一部分实例,通常占数据集的 20% (如果数据集非常大,占比会更小)。
为什么使用测试集?
使用测试集是为了避免 数据窥探偏差 。因为人脑是强大的模式检测系统,容易过度拟合:
- 若查看测试集,可能会发现一些看似有趣的模式;
- 从而选择特定的机器学习模型;
- 导致对泛化误差的估计过于乐观;
- 最终推出的系统表现不如预期。
11、验证集的目的是什么?
以下是调整为 Markdown 格式的文本内容:
验证集用于在模型训练过程中评估不同模型的性能,从而选择在验证集上表现最佳的模型。经过留出验证过程后,再使用完整训练集(包括验证集)训练最佳模型得到最终模型,最后在测试集上评估最终模型以估计泛化误差。
12、什么是训练开发集,何时需要它,以及如何使用它?
训练开发集的使用方法
训练开发集是从网络训练图片中划分出的一个集合,由吴恩达命名。
当真实数据稀缺时,可使用相似的丰富数据进行训练,并划分出训练开发集。
使用方法
- 模型训练 :模型在训练集上进行训练。
- 训练开发集评估 :
- 若表现差,说明模型过拟合训练集,应:- 简化或正则化模型
- 获取更多训练数据
- 清理训练数据
- 若表现好,则进入下一步。
- 开发集评估 :
- 若表现差,问题可能源于数据不匹配,可:- 对网络图像进行预处理,使其更像移动应用拍摄的图片
- 然后重新训练模型
- 最终评估 :
- 当模型在训练开发集和开发集上都表现良好时,最后在测试集上评估,以了解其在生产环境中的可能表现。
13、如果使用测试集调整超参数,可能会出现什么问题?
如果使用测试集调整超参数,对泛化误差的估计会过于乐观,并且系统会针对测试数据进行微调,在未知数据集上的表现可能不佳,调整后的改进也不太可能推广到新数据上。
14、尝试在数据准备管道中添加一个SelectFromModel转换器,以仅选择最重要的属性。
可按如下步骤操作:
- 将
SelectFromModel添加到准备管道中。 - 当对其进行拟合时,它会训练一个模型(通常是随机森林),查看其
feature_importances_

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



