使用 Bokeh - Scala 进行数据可视化与机器学习基础
1. 引言
在数据处理过程中,可视化和机器学习是两个重要的环节。可视化能够帮助我们直观地理解数据,而机器学习则能让我们从数据中挖掘出有价值的信息。接下来,我们将分别介绍如何使用 Bokeh - Scala 进行数据可视化,以及机器学习中的一些基本概念和方法。
2. 使用 Bokeh - Scala 创建散点图
虽然 Zeppelin 能快速执行 Spark SQL 并可视化数据,但它仍在不断发展。这里我们将介绍 Python 中流行的可视化框架 Bokeh 及其 Scala 绑定。Breeze 也有可视化 API,但目前维护不活跃,暂不讨论。
Bokeh 由 BokehJS 支持,其 Scala 绑定库(bokeh - scala)能将 Scala 对象转换为 BokehJS 可理解的图形格式。不过,Bokeh - Scala 绑定还在发展中,有时比 Python 版本更繁琐,但仍能创建出出色的图形。
2.1 数据准备
我们使用鸢尾花数据(https://archive.ics.uci.edu/ml/datasets/Iris)创建散点图。为了用 Breeze 矩阵表示数据,将鸢尾花品种类别转换为数字:
- Iris setosa: 0
- Iris versicolor: 1
- Iris virginica: 2
这些数据存储在 irisNumeric.csv 中。
Bokeh 绘图要求数据为特定格式,我们创建继承自 ColumnDataSource 的对象:
超级会员免费看
订阅专栏 解锁全文

1132

被折叠的 条评论
为什么被折叠?



