想学spark但是没有集群也没有数据？没关系，我来教你白嫖一个！

最新推荐文章于 2024-08-26 03:52:48 发布

原创

最新推荐文章于 2024-08-26 03:52:48 发布 · 677 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #spark #pyspark

本文介绍了如何使用Databricks的免费社区版进行Spark学习和实验。Databricks是由Spark创建者开发的统一分析平台，支持Scala、Python和R。文章详细讲解了注册、配置环境、创建集群以及进行Spark SQL实验的步骤，展示了其在数据处理和可视化方面的便利性，适合初学者使用。

本文始发于个人公众号：TechFlow，原创不易，求个关注

今天是spark专题的第六篇文章，这篇文章会介绍一个免费的spark平台，我们可以基于这个平台做一些学习实验。

databricks

今天要介绍的平台叫做databricks，它是spark的创建者开发的统一分析平台。单凭spark创建者这几个字大家应该就能体会到其中的分量，其中集成了Scala、Python和R语言的环境，可以让我们在线开发调用云端的spark集群进行计算。

最最关键的是，它提供免费的社区版本，每个开发者都可以获得15GB内存的免费运行环境。非常适合我们初学者进行学习。

说来惭愧我也是最近才知道这么一个平台（感谢sqd大佬的分享），不然的话也不用在本地配置spark的环境了。下面简单介绍一下databricks的配置过程，我不确定是否需要梯子，目测应该可以正常访问。有知道的小伙伴可以在留言板里评论一下。

首先，我们访问：https://community.cloud.databricks.com/

然后点击注册按钮，创建新用户：

跳转之后会让我们填写一些个人的基本信息，比如姓名、公司名称、工作邮箱还有使用这个平台的目的，等等。

我实际验证过，这里的公司没有校验，应该可以随意填写，比如你可以填tencent或者是alibaba都是可以的。工作邮箱我们可以留qq邮箱，并不会做公司邮箱后缀校验，所以学生党们可以不用担心，假装自己在某家心仪的公司就可以了。然后选一下目的这个也都很简单大家自由选择，选好了之后，我们点击sign up就好了。

这里说明一下，如果留qq邮箱的话验证邮件会被qq当做垃圾邮件放入垃圾箱，所以记得去垃圾箱里查看。然后我们点击邮件中的链接设置密码就完成了。