机器学习入门:概念、流程与挑战
1. 机器学习类型
机器学习问题主要分为监督学习和无监督学习两类。
- 监督学习 :提前知道数据的真实标签,将带标签的数据输入模型,期望模型学习后能对新数据进行标签预测。例如给图像标注为“猫”,或标注婴儿出生体重为 2.3 千克。监督学习问题又可分为分类和回归:
- 分类模型 :将输入数据分配到离散的、预定义的类别标签中。比如确定图像中宠物的品种、给文档打标签、预测交易是否欺诈等。
- 回归模型 :为输入数据分配连续的数值。例如预测自行车骑行的时长、公司未来的收入、产品的价格等。
- 无监督学习 :事先不知道数据的标签,目标是构建一个模型,使其能够找到数据的自然分组(聚类)、压缩信息内容(降维)或发现关联规则。虽然图中未包含,但像自编码器这样的神经网络也可用于无监督学习。
此外,还有一些特定类型的机器学习模型:
- 线性模型 :只有输入和输出层的神经网络,是机器学习的一个子集,使用线性函数表示从数据中学到的模式。
- 决策树 :利用数据创建具有各种分支的路径子集,这些分支近似表示数据不同结果的情况。
- 聚类模型 :寻找数据不同子集之间的相似性,并根据识别出的模式将数据分组。
2. 数据与特征工程
数据是机器学习问题的核心,涉及训练、验证和测试模型的数据集合,具体包括:
-
超级会员免费看
订阅专栏 解锁全文
1943

被折叠的 条评论
为什么被折叠?



