flink-ml 技术调研

原创

已于 2022-03-17 12:12:03 修改 · 2.6k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据 #big data

于 2022-02-22 19:58:48 首次发布

本文详细介绍了Apache Flink中使用TableAPI进行机器学习的环境要求和模型应用，包括KNN分类模型、逻辑回归、朴素贝叶斯分类、K-means聚类算法。KNN实例展示了训练过程、参数设置和测试结果，准确率达到95%。同时，解释了朴素贝叶斯的基本思想，并给出了K-means聚类的在线效果和算法原理。此外，还提及了dbscan和LightGBM等其他算法在不同场景的应用，并提供了多个相关学习资源。

# 环境要求
依赖Flink Table API (flink-version：1.14.0以上)


# 分类模型
1. KNN (最邻近规则分类)
2. 逻辑回归
3. 朴素贝叶斯
# 聚类模型
4. kmeans
# 其他模型
5. 热编码算法


# maven依赖
(1) 使用工件flink-ml-core_2.12来开发自定义 ML 算法
(2) 使用工件flink-ml-core_2.12和flink-ml-iteration_2.12开发需要迭代的自定义 ML 算法
(3) 使用工件flink-ml-lib_2.12以使用中现成的 ML 算法。
<dependency>
  <groupId>org.apache.flink</groupId>
  <artifactId>flink-ml-core_2.12</artifactId>
  <version>2.0.0</version>
</dependency>
<dependency>
  <groupId>org.apache.flink</groupId>
  <artifactId>flink-ml-iteration_2.12</artifactId>
  <version>2.0.0</version>
</dependency>
<dependency>
  <groupId>org.apache.flink</groupId>
  <artifactId>flink-ml-lib_2.12</artifactId>
  <version>2.0.0</version>
</dependency>

注：
聚类是降维，十个对象类的问题转化为三个对象类的问题
分类是预测，已知某个对象的特征向量，判断这个对象属于哪一类别



一、有监督学习算法介绍 （分类、回归）
# KNN (最邻近规则分类)
1. 思想
为了判断未知实例的类别，以

最低0.47元/天解锁文章