大数据分析之Spark与机器学习入门
1. Spark基础操作
Spark是当今大数据领域最突出的技术之一,自2014年推出以来发展迅速,解决了Hadoop的许多缺点,如I/O争用等问题。Databricks是商业版Spark的领先提供商,还提供了免费的社区版,方便用户学习和使用。
1.1 导入笔记本
在弹出菜单中选择“从URL导入”选项,输入相应URL,笔记本将显示在你的邮箱ID下,点击笔记本名称即可加载。
1.2 Spark基础命令
以下是一些基本的Spark Python代码示例:
from pyspark import SparkContext
# sc = SparkContext(appName = "some_application_name")
# 在Databricks环境中,SparkContext已创建
quote = "To be, or not to be, that is the question: Whether 'tis nobler in the mind to suffer The slings and arrows of outrageous fortune, Or to take Arms against a Sea of troubles, And by opposing end them: to die, to sleep No more; and by a sleep, to say we end the heart-ache, and the thousand natural shocks that F