《大数据机器学习实践探索》 ---- 大数据机器学习：spark mlib 库【简介与架构初探】

shiter

已于 2022-07-17 16:30:36 修改

阅读量870

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据机器学习实践探索基于大数据的机器学习原理与最佳实践人工智能系统解决方案与技术架构文章标签： spark mlib

于 2021-02-25 16:01:49 首次发布

本文链接：https://blog.youkuaiyun.com/wangyaninglm/article/details/114080483

人工智能系统解决方案与技术架构同时被 3 个专栏收录

212 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大数据机器学习实践探索

130 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

基于大数据的机器学习原理与最佳实践

84 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

简介

在这里插入图片描述
机器学习强调三个关键词：算法、经验、性能，其处理过程如上图所示。在数据的基础上，通过算法构建出模型并对模型进行评估。评估的性能如果达到要求，就用该模型来测试其他的数据；如果达不到要求，就要调整算法来重新建立模型，再次进行评估。如此循环往复，最终获得满意的经验来处理其他的数据。机器学习技术和方法已经被成功应用到多个领域，比如个性推荐系统，金融反欺诈，语音识别，自然语言处理和机器翻译，模式识别，智能控制等。

在大数据上进行机器学习，需要处理全量数据并进行大量的迭代计算，这要求机器学习平台具备强大的处理能力。Spark 立足于内存计算，天然的适应于迭代式计算。即便如此，对于普通开发者来说，实现一个分布式机器学习算法仍然是一件极具挑战的事情。

幸运的是，Spark提供了一个基于海量数据的机器学习库，它提供了常用机器学习算法的分布式实现，开发者只需要有 Spark 基础并且了解机器学习算法的原理，以及方法相关参数的含义，就可以轻松的通过调用相应的 API 来实现基于海量数据的机器学习过程。其次，Spark-Shell的即席查询也是一个关键。算法工程师可以边写代码边运行，边看结果。spark提供的各种高效的工具正使得机器学习过程更加直观便捷。比如通过sample函数，可以非常方便的进行抽样。当然，Spark发展到后面，拥有了实时批计算，批处理，算法库，SQL、流计算等模块等，基本可以看做是全平台的系统。把机器学习作