聚类与分类:机器学习的核心技术解析
在当今数据驱动的时代,机器学习作为一项关键技术,正广泛应用于各个领域。它主要基于数据优化技术,旨在寻找低秩子空间以最优嵌入数据,并运用回归方法对不同类型的数据进行聚类和分类。
1. 机器学习基础概述
机器学习提供了一套系统的数学方法,用于从数据中提取有意义的特征,即数据挖掘,同时将数据划分为不同且有意义的模式,以辅助决策。在商业应用中,这通常被称为预测分析,是现代数据驱动决策的前沿领域。在集成系统,如自主机器人中,各种机器学习组件(如处理视觉和触觉刺激的组件)可以集成形成人工智能(AI)。AI 建立在集成的机器学习算法之上,而这些算法从根本上源于优化技术。
机器学习主要分为两大类:监督式机器学习和无监督式机器学习。
监督式机器学习中,算法会得到带有标签的数据集。训练数据由教师或专家进行标注,通过优化和回归方法找到最适合给定标签数据的模型,然后用于对新数据进行预测和分类。监督式学习还有一些重要的变体,包括半监督学习、主动学习和强化学习。
- 半监督学习:训练数据不完整,部分输入输出关系缺失。
- 主动学习:算法根据预算只能获取有限实例的训练标签,并需要优化选择获取标签的对象。
- 强化学习:使用奖励或惩罚作为训练标签来构建最佳模型。
无监督式机器学习则没有给定标签,算法需要以一种有原则的方式在数据中寻找模式,以确定如何对数据进行聚类并生成标签,用于预测和分类新数据。其目标可能是发现嵌入在低秩子空间中的数据模式,以便进行特征工程或特征提取来构建合适的模型。
2. 特征选择与数据挖掘
为了利用数据进行诊断、预测和控制,必须提取数据的主要特
超级会员免费看
订阅专栏 解锁全文
1117

被折叠的 条评论
为什么被折叠?



