机器学习中的分类及图像检索技术
1. 实例学习与半监督学习
1.1 实例学习
实例学习中,可使用 K - means 算法将模式聚类成 k 个簇,用得到的 k 个质心代替 N 个训练模式。质心的标签通过每个簇中多数类标签来确定。不过,在高维空间中,两点间的距离可能没有意义。随着维度增加,点 x 与其最近邻的距离会趋近于它与最远邻的距离,这可能导致最近邻分类器(NNC)在高维空间中表现不佳。为实现更高效的分类结果,开发了一些最近邻分类器的设计变体,如多维索引结构,特别是各种基于树的索引结构,以降低计算成本。
1.2 半监督学习
半监督学习利用有标签和无标签数据进行训练,通常是少量有标签数据和大量无标签数据,介于无监督学习(无有标签训练数据)和监督学习(完全有标签训练数据)之间。获取有标签数据通常需要专业人员,成本较高,而无标签数据获取相对便宜,因此半监督学习具有很大的实用价值,同时在机器学习理论和人类学习模型方面也有研究意义。
半监督学习算法基于以下假设使用无标签数据:
- 连续性假设 :彼此接近的点更可能具有相同的标签。
- 聚类假设 :数据倾向于形成离散的簇,同一簇中的点更可能具有相同的标签,可通过聚类算法进行特征学习。
- 流形假设 :数据大致位于比输入空间维度低得多的流形上,可利用流形上定义的距离和密度进行学习。当高维数据由难以直接建模但自由度较少的过程生成时,流形假设很实用。
1.3 半监督学习方法
- 自训练
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



