The Fundamentals of Machine Learning

最新推荐文章于 2023-11-27 15:15:08 发布

原创最新推荐文章于 2023-11-27 15:15:08 发布 · 491 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

ML 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了机器学习的基础概念，包括监督学习、非监督学习、半监督学习及增强学习的不同类型。探讨了不同学习方式的特点，如批学习和在线学习，并讨论了实例与模型为基础的学习方法。此外，还分析了机器学习面临的挑战，如数据不足、过拟合等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

What is Machine Learning？

Machine Learning is the science（and art） of programming computers so they can learn from data.
ML is the field of study that gives computers the ability to learn without being explicitly programmed.---Arthur Sammuel ,1959
A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.---Tom Mitchell, 1997

Type of ML.

从是否监督角度分类

监督学习Supervised Learning

训练集中的数据被认为的设置好标签。例如垃圾邮件管理器中，用户标记的垃圾邮件作为训练集。

k-Nearest Neighbors
Linear Regression
Logistic Regression
Support Vector Machines
Decision Trees and Random Forests
Netural networks

非监督学习UnSupervised Learning

训练集未标记

Clustering(k-Means,Hierarchical Cluster Analysis,Expectation Maximization)
Visualization and dimensionality reduction( Principal Component Analysis, Kernel PCA , Locally-Linear Embedding , t-distributed Stochastic Neighbor Embedding)
Association rule learning(Apriori , Eclat)

半监督学习Semisupervised Learning

部分训练集被标记

增强学习Reinforcement Learning

学习系统称之为Agent，根据Agent的选择，基于rewards和penalties。AlphaGO就是如此。

从训练过程角度

批学习Batch Learning

线下学习（offline learning），顾名思义。对于经常更新的数据不适合，训练需要巨大的资源开支。随着数据更新，训练集会越来越大。

线上学习Online Learning

将数据分割成mini-batches，在计算机资源紧张时很实用，可以删除训练过的min-bathes，并且可以replay到之前的状态。out-of-core learning:训练数据量远大于计算机内存的学习。

从训练逻辑角度

基于样例的学习Instance-based learning

系统随“心”学习，对新数据采用相似度比较的方式度量。例如一个垃圾邮件评判系统，如果训练集中的邮件字数都是单数，那么系统可能会认为字数为单数的邮件都是垃圾邮件。

基于模型的学习Model-based learning

人工选择一个模型，例如人民满意度 = a * 年收入 + b ，即是一个线性模型。要设计“评判模型参数适合度的标准”，来评价当前模型参数的好坏。

Challenges of Machine Learning

训练数据量不足（只要数据量上去了，各种算法的表现都提升）
训练数据没代表性（或者训练数据有偏见）
训练数据质量差（应当清除数据中的errors，outliers，noise）
抓取了无关特征（特征抽取：将现有特征融合成更有用的特征）
过拟合（系统对于训练集训练过度，认为一些无关紧要的内容也是特征，导致在测试集中表现差。通常的操作是，给模型以约束，简化，在训练集中剔除噪声等正常化操作。）
欠拟合（对策是选取更强大的模型，选用更好的特征，减少模型的约束）

Testing and Validating

训练集，测试集八二分成。

仅以测试集的成绩调试，会导致模型和超参（例如人民满意度例子中的a和b）对测试集过拟合。

故，数等分训练集，任选部分为子训练集和验证集，以验证集结果调试模型和超参数。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。