
hadoop
文章平均质量分 73
富兰克林008
支撑系统运维。
展开
-
linux-结构化成行成列-小文件循环合并成大文件--方便上传到hadoop
linux-结构化成行成列-小文件循环合并成大文件--方便上传到hadoop原创 2015-12-14 21:56:53 · 1048 阅读 · 0 评论 -
CDH5.5自行编译支持sparkSQL,sparkR
第一步:编译支持hive的spark assembly http://blog.youkuaiyun.com/xiao_jun_0820/article/details/44178169 第二步:让cloudera manager装的spark支持hql http://blog.youkuaiyun.com/xiao_jun_0820/article/details/44680925 发原创 2015-12-15 13:32:03 · 4271 阅读 · 0 评论 -
CDH5.5上安装Rhadoop,RStudio server版初始化SparkR
CDH的很少看到有资料介绍,看到官方文档明确不支持sparkR。 然后在看到Rhadoop的一些博客,舍弃CDH自带的spark stack,使用Apache上最新的spark1.5.2,直接下载放在节点上,采用spark on yarn的方式调用hadoop资源。 需要做的只是把hadoop,hive的配置拷贝到spark的conf下。免去安装spark集群的工作。 #######原创 2015-12-14 21:18:37 · 2376 阅读 · 0 评论 -
DataNode起不来检查记录
今天开机启动HDFS,发现一个DataNode在界面上是停止的,尝试手工再次重启,直接报错,但是界面上输出日志不明显。 然后看日志输出目录(有点忘了日志目录了,查查配置) putty去到目录:查看,发现50020端口被占用: 2015-12-17 10:25:45,261 FATAL org.apache.hadoop.hdfs.server.datano原创 2015-12-17 10:42:57 · 2698 阅读 · 0 评论 -
CDH5.4.7升级到CDH5.5.0
CDH5.4.7升级到CDH5.5.0 参考:CDH5.2.0升级到CDH5.3.3 http://www.bkjia.com/xtzh/984876.html 这个是之前CDH5.4.7 SPARK 1.3.0版本,看到新发布CDH5.5.0已经是SPARK 1.5.0,所以打算升级,升级后发现是不支持spark-sql和sparkR的,通过部署社区的spark1.5.2用sp原创 2015-12-18 09:45:48 · 2682 阅读 · 0 评论