
spark学习
陌涂
就这样,简简单单
展开
-
Spark基础
一、Spark是一个快速且通用的集群计算平台。Spark是快速的: Spark扩充了流行的MapReduce计算模型; Spark是基于内存的计算。Spark是通用的: Spark的设计容纳了其它分布式系统拥有的功能; 批处理,迭代式计算,交互查询和流处理等。 优点:降低了维护成本。Spark是高度开放的: Spark提供了Python、Java、Sca原创 2017-11-06 21:33:45 · 530 阅读 · 0 评论 -
Spark上数据的获取、处理与准备
一、获取公开数据集UCI机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/Amazon AWS公开数据集:包含的通常是大型数据集,可通过Amazon S3访问。这些数据集包括人类基因组项目、Common Craw网页语料库、维基百科数据和Google Books Ngram...原创 2018-08-17 21:13:43 · 8896 阅读 · 0 评论 -
spark基本命令
一、spark所在目录cd usr/local/spark二、启动spark/usr/local/spark/sbin/start-all.sh启动Hadoop以**及Spark:bash ./starths.sh浏览器查看:172.16.31.17:8080停止Hadoop以及Sparkbash ./stophs.sh三、...原创 2018-08-13 15:31:42 · 15836 阅读 · 0 评论 -
hadoop常用命令
环境配置参考链接: https://blog.youkuaiyun.com/u011596455/article/details/53115410一、hadoop所在目录cd usr/local/hadoop二、启动hadoopbash ./starth.sh % 运行start-dfs.sh% 运行start-yarn.sh启动dfs,浏览器查看:17...原创 2018-08-13 15:34:06 · 58004 阅读 · 2 评论 -
【课程】Spark从零开始
Spark简介Spark是什么:Spark是一个快速且通用的集群计算平台 Spark的特点 Spark是快速的 Spark扩充了流行的MapReduce计算模型 Spark是基于内存的计算 Spark是通用的 Spark的设计容纳了其他分布式系统拥有的功能,批处理,迭代式计算,交互查询和流处理等。 优点:降低了维护成本 Spark是高度开放的 Spark提供了Pytho...原创 2018-08-16 09:14:51 · 1050 阅读 · 0 评论