机器学习理论与实践全解析
1. 机器学习类型
机器学习算法有多种分类方式,常见的分类基于两个因素:学习类型和主观分组。不同学习类型适用于不同的数据情况和问题场景,而主观分组则有助于我们根据模型目标来选择合适的算法。
1.1 学习类型
- 监督学习 :数据中包含响应变量(标签)或可生成标签的机器学习算法属于监督学习。响应变量可以是连续的或分类的。若响应变量是分类的,问题为分类任务;若为连续的,则是回归任务,但也存在两者混合的情况。监督学习的应用包括语音识别、信用评分、医学成像和搜索引擎等。
- 无监督学习 :当数据中没有标签时,这类机器学习算法被称为无监督学习。学习基于数据集中每行之间的相似性或距离度量。常用技术是聚类,还有关联规则挖掘(ARM),不过很多文献认为 ARM 是数据挖掘技术而非机器学习。无监督学习的应用有市场营销中的客户细分、社交网络分析、图像分割和气候学等。
- 半监督学习 :介于有标签和无标签数据之间。在实际中,标注成本高,多数观测无标签但少数有标签时,半监督算法是构建模型的最佳选择。这些方法利用未标记数据虽组归属未知,但包含组参数重要信息的特点。
- 强化学习 :监督和无监督学习算法需要干净准确且全面的数据以产生最佳结果。当学习数据当前不可用或会随时间快速更新时,强化学习是理想选择。强化学习算法(代理)通过迭代从环境中持续学习,直到探索完所有可能状态。其应用包括计算机棋类游戏(如国际象棋、围棋)、机器人手和自动驾驶汽车等。 </