
spark on yarn
文章平均质量分 93
fansy1990
这个作者很懒,什么都没留下…
展开
-
Oozie4.2.0配置安装实战
软件版本:Oozie4.2.0,Hadoop2.6.0,Spark1.4.1,Hive0.14,Pig0.15.0,Maven3.2,JDK1.7,zookeeper3.4.6,HBase1.1.2,MySQL5.6集群部署:node1~4.centos.com node1~4 192.168.0.31~34 1G*4 内存 1核*4 虚拟机node1:N原创 2016-01-23 23:44:39 · 7878 阅读 · 9 评论 -
Eclipse调用Spark on yarn问题及解决
软件版本:Spark1.4.1 ,Hadoop2.6,Scala2.10.5 , Eclipse4.5.1,intelliJ IDEA14,JDK1.7集群环境:windows7 (包含JDK1.7,Eclipse4.5.1,IntelliJ IDEA14);centos6.6虚拟机(Hadoop分布式集群,JDK1.7)node1:NameNode/ResourceManager ; node2原创 2016-08-04 15:24:13 · 5966 阅读 · 9 评论 -
Spark读写Hive
环境:CDH5.8,Spark:1.6.0;Hadoop:2.6.0,Intellij IDEA14 ,jdk1.8,sdk:2.10.6 ,maven:3.3.3;工程下载地址:1. Spark读取HiveSpark读取Hive,使用的是HiveContext,第一步使用sc生成一个HiveContext,然后其他操作就是在HiveContext里面操作了;比如使用HiveContext的tab原创 2016-11-29 22:42:00 · 13692 阅读 · 0 评论 -
Spark加载PMML进行预测
软件版本:CDH:5.8.0 , CDH-hadoop :2.6.0 ; CDH-spark :1.6.0 目标:使用Spark 加载PMML文件到模型,并使用Spark平台进行预测(这里测试使用的是Spark on YARN的方式)。具体小目标:1. 参考https://github.com/jpmml/jpmml-spark 实现,能运行简单例子;2. 直接读取HDFS上面的输入数据文件,使用原创 2016-11-25 22:28:05 · 19417 阅读 · 2 评论 -
Spark TopK问题解法
软件版本及平台:CDH5.8、四子节点(cpu:2核、内存:4G)、JDK:1.7、IDEA14 、 Spark:1.6.0-cdh5.7.3;代码下载:问题描述:现有用户项目评分数据,其格式如下所示:u1,item1,0.0913375062480507u2,item1,0.4061823571029518u3,item1,0.021727289053235843u4,item1,0.24原创 2016-12-15 22:44:50 · 3813 阅读 · 0 评论 -
Oozie Spark on YARN requirement failed
软件环境:CDH:5.7.3;Oozie:4.1.0-CDH5.7.3 ; Spark:1.6.0-cdh5.7.3-hadoop2.6.0-cdh5.7.3 ; Hadoop:hadoop2.6.0-cdh5.7.3(HDFS 采用HA方式);问题描述:在使用CDH5.7.3版本的时候,发起一个Oozie工作流,该工作流使用Spark On YARN的方式提交一个Spark程序,但是在Oozie原创 2016-12-24 10:37:02 · 4533 阅读 · 1 评论 -
Windows Spark On YARN 提交任务到CDH集群
软件版本:IDE:Intellij IDEA 14,Java:1.7,Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;部署环境:1. 在Windows10 上启动IDEA ,并启动Tomcat,在Tomcat中使用Spark On YARN的方式调用封装好的Spa原创 2017-01-05 18:20:10 · 6671 阅读 · 0 评论 -
Spark On YARN内存和CPU分配
本篇博客参考:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本:CDH:5.7.2,JDK:1.7;问题描述:在使用Spark On YARN时(无论是Client模式或者是Cluster模式,当然下面会有这种模式的对比区别),可以添加诸如:--executor-memory翻译 2017-01-10 17:17:15 · 21580 阅读 · 2 评论 -
TensorFlowOnSpark stuck
问题描述:在使用TensorFlowOnSpark做测试的时候,发现任务,老是卡着并没有实际的运行。解决方法:1. 由于我使用的是自编译的TensorFlow,当时编译的时候有一个enable HDFS,默认是false,所以再次编译了一遍,把对应的HDFS enable设置为了true;2. 没有严格参考官网: 官网上面在使用spark-submit提交的时候,添加了--conf参数,而我以原创 2017-10-31 13:39:38 · 1054 阅读 · 0 评论