# 环境要求
依赖Flink Table API (flink-version:1.14.0以上)
# 分类模型
1. KNN (最邻近规则分类)
2. 逻辑回归
3. 朴素贝叶斯
# 聚类模型
4. kmeans
# 其他模型
5. 热编码算法
# maven依赖
(1) 使用工件flink-ml-core_2.12来开发自定义 ML 算法
(2) 使用工件flink-ml-core_2.12和flink-ml-iteration_2.12开发需要迭代的自定义 ML 算法
(3) 使用工件flink-ml-lib_2.12以使用中现成的 ML 算法。
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-ml-core_2.12</artifactId>
<version>2.0.0</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-ml-iteration_2.12</artifactId>
<version>2.0.0</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-ml-lib_2.12</artifactId>
<version>2.0.0</version>
</dependency>
注:
聚类是降维,十个对象类的问题转化为三个对象类的问题
分类是预测,已知某个对象的特征向量,判断这个对象属于哪一类别
一、有监督学习算法介绍 (分类、回归)
# KNN (最邻近规则分类)
1. 思想
为了判断未知实例的类别,以