Databricks
databricks是使用Apache Spark™的原始创建者提供的Databricks统一分析平台
它集成了Spark环境支持Scala、python、R语言进行开发。
databricks分商业版本和社区版本,学生以及个人可以使用社区版本。社区版本只需要注册一下账号,则就会拥有一台配置为6G内存的Spark集群环境。
Spark初学者则不再为配置开发环境而烦恼·~~~~
接下来就展示一下注册&使用教程

然后就是邮件验证 以及手机号验证。这里就不截图了。
如何使用


设置集群名称RoneDemo,Scala版本为2.10 、Spark版本为2.2.1,其它参数无伤大雅默认就好,最后就是直接点击上方的CreateCluster创建集群
稍等片刻集群便会搭建起来

接下来我们导入文件数据并进行一些数据操作
导入准备好的数据文件



表的默认指定的字段类型为String,我们可以更改其类型



最后就是编写Spark代码了
这里的Notebook和JPuterNoteBook、以及Zeppelin大同小异
val productsDF = spark.sql("select * from products_datasetss")
productsDF.show()
执行sparkSQL进行查询,(Ctrl + Enter 进行快速执行)其它的快捷键上面都有。
这种编辑器支持联想关键词,Tab键可以给你提示信息。
import org.apache.spark.sql.functions._
productsDF.groupBy("product_category_name").count().orderBy(desc("count")).show()
如果想进行其它语句直接编写执行就完事了,比如说统计共多少条数据etc
That’s All of This 谢谢观看
本文介绍了Databricks统一分析平台,它集成了Spark环境支持多种语言开发,有商业和社区版本,学生和个人可用社区版获取Spark集群环境。还展示了注册使用教程,包括设置集群、导入数据、更改字段类型,最后介绍了编写Spark代码及执行sparkSQL查询等操作。
2320





