作者:禅与计算机程序设计艺术
1.简介
Databricks是美国硅谷的一家公司,主要从事数据科学家工作。它在2014年加入AWS的机器学习团队并担任首席工程师。在过去五年里,Databricks已经帮助超过60家公司实施数据科学,包括艺图、斯坦福大学、NASA、谷歌、Cloudera、Netflix等。Databricks支持多种编程语言,包括Python、R、Scala、Java、SQL、Hadoop Streaming等,可以将Spark作为计算引擎。该公司还提供基于云的服务如Amazon Web Services(AWS)上的托管分析平台服务、基于Azure的分析服务、基于Redshift的数据仓库服务。2017年,Databricks宣布其新版本Databricks Runtime 4.0将在不久后推出。
本文将从以下几个方面介绍Databricks:
- 数据源
- 流处理和批处理
- 模型训练
- 可视化工具
- SQL支持
- 案例研究
2.数据源
2.1 CSV文件
Databricks使用CSV作为默认的数据输入格式。首先需要创建一个CSV文件,然后将其上传到Databricks的文件系统中。可以使用笔记本中的“创建表格”功能,也可以使用DBFS浏览器。
在笔记