
hadoop
PeterGss
百度攻城狮
展开
-
hadoop之旅(三)java操作HDFS
8.Java操作HDFS URL url=new URL(“http://www“);//远程操作http协议 inputstream in =url.openStream(); IOUtils.copyBytes(in,System.out,4096,true) 1.方式 URL.setURLStreamHandlerfactory(new FsUrlStreamHandler原创 2017-08-19 23:40:23 · 250 阅读 · 0 评论 -
CDH 安装
注:此为hadoop CDH5.11离线安装查看linux1. cat /proc/version (Linux查看当前操作系统版本信息)2.cat /etc/issue 或cat /etc/redhat-release(Linux查看版本当前操作系统发行版信息)3.lsb_release -a 当前操作系统 的 详细信息linux清理缓存的命令查看缓存的命令 fr...原创 2018-08-21 17:36:31 · 1379 阅读 · 0 评论 -
ambari搭建HDP集群
1. cat /proc/version (Linux查看当前操作系统版本信息)2.cat /etc/issue 或cat /etc/redhat-release(Linux查看版本当前操作系统发行版信息)3.lsb_release -a 当前操作系统 的 详细信息 先安装一个 cdh试一下 后面再安装这个...原创 2018-08-21 10:51:31 · 427 阅读 · 0 评论 -
hadoop之旅(二)
前面我们已经搭建好hadoop,hdfs,一台master两台slaves。 1。hadoop-daemon.sh start/stop namenode/datanode启动/关闭hdfs 2。hdfs dfsadmin -report|more 查看集群情况 3.start-dfs 直接在master启动集群 4.ssh’免密码登录ssh_keygen -t rsa ,生成一个私钥一个公原创 2017-08-19 23:38:50 · 280 阅读 · 0 评论 -
hadoop之旅(五)
1.配置计算调度系统Yarn和计算引擎Map/Reduce 2.namenode上配置mapred-site.xml mapreduce.framework.name yarn 3.yarn-site.xml的配置 yarn.resourcemanager.hostname master yarn.nodemanager.aux-se转载 2017-08-20 16:10:06 · 175 阅读 · 0 评论 -
(干货):Spark性能优化
继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。转载 2017-08-20 10:35:31 · 236 阅读 · 0 评论 -
大数据技术体系,hadoop与spark
大数据技术体系,hadoop与spark图原创 2017-08-13 12:29:09 · 509 阅读 · 0 评论 -
hadoop之旅(一)环境搭建
前面我们已经搭建好Hadoop,hdfs,一台master两台slaves。 1。hadoop-daemon.sh start/stop namenode/datanode启动/关闭hdfs 2。hdfs dfsadmin -report|more 查看集群情况 3.start-dfs 直接在master启动集群 4.ssh’免密码登录ssh_keygen -t rsa ,生成一个私原创 2017-08-19 23:43:39 · 210 阅读 · 0 评论 -
hadoop之旅(四)常用操作(拷贝、权限)
hadoop dfsadmin -safemode leave #解除hadoop的安全模式hadoop fs -copyFromLocal URI#拷贝本地文件到hdfs hadoop fs -cat file:///file3 /user/hadoop/file4#将路径指定文件的内容输出到stdout hadoop fs -chgrp [-R] GROUP URI#改变文件的所属组原创 2017-08-19 23:41:41 · 414 阅读 · 0 评论 -
hive 踩过的坑
select SrcIP,DstIP,RecTime from(select get_json_object(json,'RecTime') RecTime ,get_json_object(json,'SrcIP') SrcIP,get_json_object(json,'DstIP') DstIPfrom tmp_json_test t) t2distribute by SrcIP,D...原创 2018-09-14 15:55:41 · 282 阅读 · 0 评论