
Hadoop
文章平均质量分 92
sooner高
DeepFaceLab作者, Tensorflow & PyTorch contributor,深度学习小学生
展开
-
Spark2.0安装
Spark伪分布安装(依赖Hadoop)一、伪分布安装Spark安装环境:Ubuntu 14.04 LTS 64位+Hadoop2.7.2+Spark2.0.0+jdk1.7.0_76linux下的第三方软件应该安装在/opt目录下,约定优于配置,遵循这一原则是良好的环境配置习惯。所以这里安装的软件都在/opt目录下。1、安装jdk1.7转载 2016-10-12 08:58:49 · 1242 阅读 · 0 评论 -
Hadoop2.6.0启动脚本分析
Start-all.sh启动原理Step1:start-all.sh先看sbin目录下的start-all.sh脚本。抛出注释,内容很少:# Start all hadoop daemons. Run this on master node.这个脚本在hadoop-2.6.0被建议不要使用。推荐使用的是分别启动start-dfs.sh和start-yarn.sh.其内原创 2016-10-17 12:48:34 · 2193 阅读 · 0 评论 -
spark-redis入门教程
本文是我翻译自redis官方网站文章,英文作者是Itamar Harber。 Spark-Redis是用Spark在redis上面进行读写数据操作的包。其支持redis的所有数据结构:String(字符串), Hash(哈希), List(列表), Set and Sorted Set(集合和有序集合)。此模块既可以用于Redis的standalone模式,也可用于集群情况。此外,Spark-R原创 2017-06-05 15:59:18 · 10543 阅读 · 0 评论 -
HDFS上传文件错误:Permission denied: user=root, access=WRITE, inode="/user"
问题描述 今天用spark-streaming测试HDFS(文件系统)监听情况的时候,因为CDH集群重新配置的原因,权限没有设置好。导致写文件出bug。错误情况(错误代码那块没保存,下面的代码从网上找的,不过错误的地方是相同的。):11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10原创 2017-06-07 17:24:35 · 28822 阅读 · 1 评论 -
Oozie教程(1)——实现你自己的Hadoop/Spark作业工作流
前言Oozie是什么呢?按官方说法:Oozie是一个基于工作流引擎的服务器,其中每个工作流的任务可以是Hadoop的Map/Reduce作业或者Pig作业等。Oozie是运行于Java servlet容器上的一个java web应用。Oozie的目的是按照DAG(有向无环图)调度一系列的Map/Reduce或者Pig任务。Oozie 工作流由hPDL(Hadoop Process Definitio原创 2017-07-06 14:02:50 · 11593 阅读 · 0 评论 -
Hive In Oozie Workflow
本文转载自浩瀚深度的大神,因为在北邮实习过,所以也算有渊源吧,哈哈!特此感谢它的分享在公司搭建和维护大数据平台,并提供给其他数据分析人员使用,hive就是那些非程序员使用的最多(几乎是唯一)的一个服务。当然,在每天的数据处理中,我们为了简化编码工作量,以及使用到数据分析人员积累的成果,可以直接使用或简单修改他们提供的hql脚本进行数据处理,并且使用Oozie调度hive作业。在此介绍一下Hive转载 2017-07-31 19:44:56 · 800 阅读 · 0 评论