大数据与Kubernetes
文章平均质量分 73
介绍基于容器云的大数据解决方案和相关技术
cloudvtech
这个作者很懒,什么都没留下…
展开
-
Kubernetes与大数据之四:基于Kubernetes的Spark运行Terasort(50GB data)
一、前言Terasort可以测试Kubernetes平台对于Spark计算过程的如下需求的支持:从HDFS读取能力向HDFS写入能力shuffle中网络读写能力本文使用如下terasort的实现,包括TeraGen、TeraSort和TeraValidate:https://github.com/ehiggs/spark-terasort转载自https:...原创 2018-10-07 06:02:03 · 758 阅读 · 0 评论 -
Kubernetes与大数据之三:为基于Kubernetes的Spark安装History Server
一、前言通过hadoop的共享目录,可以将Spark运行的状态通过运行在Kubernetes的History Server进行展示和跟踪。在此之前,先要保证Hadoop HDFS已经顺利运行并且事先在hdfs建立如下目录:hadoop fs -mkdir /eventLog转载自https://blog.youkuaiyun.com/cloudvtech 二、在Kubernetes安...原创 2018-10-06 08:19:41 · 926 阅读 · 0 评论 -
Kubernetes与大数据之二:编译并运行基于Scalar的Spark程序WordCount
一、前言通过SBT编译scala程序然后在Kubernetes使用Spark运行WordCount任务。转载自https://blog.youkuaiyun.com/cloudvtech 二、安装环境和编译2.1 安装SBTcurl https://bintray.com/sbt/rpm/rpm > bintray-sbt-rpm.repomv bintray-sbt-rp...原创 2018-10-05 11:22:17 · 1026 阅读 · 0 评论 -
Kubernetes与大数据之一:使用Kubernetes scheduler运行Spark
一、前言从版本2.3.0起,Spark开始支持使用Kubernetes作为native的资源调度器,现在Spark一共支持如下四种资源调度方式:Standalone Deploy Mode Apache Mesos Hadoop YARN Kubernetes现在使用Kubernetes作为原生调度器还只是一个试验功能,并且需要如下前提条件:Spark 2.3+ Kubern...原创 2018-10-02 09:17:44 · 1740 阅读 · 0 评论