
大数据
爪 哇
Talk is cheap. Show me the code.
展开
-
大数据框架群起脚本
大数据框架群起脚本原创 2019-04-16 23:35:31 · 7811 阅读 · 0 评论 -
Hadoop 的三种运行模式_完全分布式运行模式(详解)
完整:https://blog.youkuaiyun.com/qq_40794973/article/details/86681941版本:Apache Hadoop 2.7.2一、虚拟机环境准备1. 克隆虚拟机2.修改克隆虚拟机的静态IP网卡配置文件位置: /etc/sysconfig/network-scripts/ifcfg-eth0 地址和Mac地址绑...原创 2019-03-30 00:19:09 · 17748 阅读 · 0 评论 -
Configuration—org.apache.hadoop.conf.Configuration
Configuration做为Hadoop的一个基础功能承担着重要的责任,为Yarn、HSFS、MapReduce、NFS、调度器等提供参数的配置、配置文件的分布式传输(实现了Writable接口)等重要功能。Configuration是hadoop中五大组件的公用类,所以放在了core下,org.apache.hadoop.conf.Configruration。这个类是作业的配置信息类,任...原创 2019-03-27 20:35:23 · 23190 阅读 · 0 评论 -
ReflectionUtils—org.apache.hadoop.util.ReflectionUtils;
api:http://hadoop.apache.org/docs/r2.7.0/api/org/apache/hadoop/util/ReflectionUtils.html反射工具类newInstance为给定的类创建一个对象并从conf初始化它/** Create an object for the given class and initialize it from con...原创 2019-03-27 18:51:28 · 11294 阅读 · 0 评论 -
java 版本文件导致 Job job = Job.getInstance(configuration); 报错
Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:80) at org.apache.hadoop.security.SecurityUtil.getAuthen...原创 2019-03-27 17:28:51 · 14043 阅读 · 4 评论 -
IOUtils—org.apache.hadoop.io.IOUtils
一、常用方法 copyBytes 实现流的对拷 //HDFS文件上传 create@Testpublic void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configuration configuration = new Config...原创 2019-03-27 16:19:23 · 12475 阅读 · 0 评论 -
MapReduce_ReduceJoin案例Debug
Reduce Join 工作原理Map端的主要工作:为来自不同表或文件的 key/value 对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为 value,最后进行输出。Reduce端的主要工作:在 Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开,最后进行合并就ok了。...原创 2019-03-25 18:52:54 · 10928 阅读 · 0 评论 -
MapReduce_自定义InputFormat_debug
版本:Apache Hadoop 2.7.2运行环境:Windows10Eclipse Debug:https://blog.youkuaiyun.com/qq_40794973/article/details/87876772自定义InputFormat:https://blog.youkuaiyun.com/qq_40794973/article/details/87863896#t29打断点:...原创 2019-03-09 14:57:06 · 10880 阅读 · 0 评论 -
MapReduce_FileInputFormat切片源码解析
版本:Apache Hadoop 2.7.2运行环境:Windows10Eclipse Debug:https://blog.youkuaiyun.com/qq_40794973/article/details/87876772ctrl + shit + h 查找JobSubmitter在方法int writeNewSplits(JobContext job, Path ...原创 2019-03-07 20:27:00 · 11215 阅读 · 0 评论 -
MapReduce_Job提交流程源码详解
版本:Apache Hadoop 2.7.2运行环境:Windows10Eclipse Debug:https://blog.youkuaiyun.com/qq_40794973/article/details/87876772主要介绍的是写完mr(job) 如何提交到集群上,这一段过程它执行了哪些操作。写一个简答的 WordCount ,通过调试来看程序是如何执行的。1、创建一个 Mav...原创 2019-03-07 15:54:07 · 11889 阅读 · 0 评论 -
HDFS_FileSystem 类介绍
FileSystem api:http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/FileSystem.htmlFileStatus 类:https://blog.youkuaiyun.com/qq_40794973/article/details/88064201HDFS的API操作:https://blog.csdn.n...原创 2019-03-01 20:05:09 · 12130 阅读 · 0 评论 -
HDFS_FileStatus类介绍
FileSystem api:http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/FileSystem.htmlFileStatus api:http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/FileStatus.htmlFileStatu...原创 2019-03-01 17:32:36 · 12149 阅读 · 0 评论 -
大数据技术之Hadoop_MapReduce
参考:《尚硅谷》大数据学习,日常总结。版本:Apache Hadoop 2.7.2mapred-default.xml:http://hadoop.apache.org/docs/r2.7.2/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml集群配置情况:https://blog.csdn.n...原创 2019-02-21 16:42:55 · 11295 阅读 · 0 评论 -
大数据技术之Hadoop_HDFS
参考:《尚硅谷》大数据学习,日常总结。版本:Apache Hadoop 2.7.2hdfs-default.xml:http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml集群配置情况:https://blog.youkuaiyun.com/qq_40794973/article/de...原创 2019-01-31 13:53:14 · 11646 阅读 · 0 评论 -
Hadoop编译源码(面试重点)
版本:Apache Hadoop 2.7.2下载地址:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.2/hadoop-2.7.2-src.tar.gz查看识别Hadoop是32位还是64位:https://www.linuxidc.com/Linux/2017-03/142049.htm解压后 在第...原创 2019-01-30 18:59:32 · 11579 阅读 · 5 评论 -
ntpdate[2819]: no server suitable for synchronization found
NTP 其他机器与时间服务器同步报错:[root@hadoop103 ~]# /usr/sbin/ntpdate hadoop10229 Jan 23:53:17 ntpdate[2819]: no server suitable for synchronization foundYou have new mail in /var/spool/mail/root一、检查NTP服务端...原创 2019-01-29 15:58:33 · 12285 阅读 · 0 评论 -
Hadoop 启动集群时 NameNode 和 DataNode 不能同时启动
Hadoop 启动集群,启动 hdfs 的时候,启动 namenode 和 datanode 的时候 一个启动起来了,另一个又挂掉了:一、切换到 root 用户,看你是否在 root 用户上有相应的进程,有的话需要杀掉。jps 二、正常用户启动的也退掉,整个集群格式化在启动。注:尽量不要用 root 用户去启动集群。...原创 2019-01-29 11:12:54 · 11778 阅读 · 1 评论 -
Hadoop 启动时,服务器上启动起来了两个 DataNode
Hadoop 里面配置完全分布式运行模式,群起集群时配置 slaves 注意事项:/opt/module/hadoop-2.7.2/etc/hadoop/slaves[atguigu@hadoop102 hadoop]$ vi slaves在该文件中增加如下内容:hadoop102hadoop103hadoop104注意:该文件中添加的内容结尾不允许有空格,文件中不...原创 2019-01-29 10:53:07 · 12343 阅读 · 1 评论 -
Hadoop 的三种运行模式_完全分布式运行模式
版本:Apache Hadoop 2.7.2目录1、虚拟机准备2、编写集群分发脚本xsync3、集群配置4、集群单点启动5、SSH无密登录配置6、群起集群7、集群启动/停止方式总结8、集群时间同步完全分布式运行模式(开发重点)分析: 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装JDK ...原创 2019-01-28 19:47:08 · 12946 阅读 · 1 评论 -
Hadoop 里面配置伪分布式运行模式时格式化NameNode注意事项
一、首先就是查看进程是否关闭,如果进程没有关闭,就算你删除了 data 和 logs 他又会产生。jps[atguigu@hadoop100 hadoop-2.7.2]$ ll总用量 76drwxr-xr-x. 2 atguigu atguigu 4096 5月 22 2017 bindrwxrwxr-x. 3 atguigu atguigu 4096 1月 27 18:1...原创 2019-01-27 16:18:54 · 11322 阅读 · 0 评论 -
hadoop 50070 无法访问问题
一、修改文件 /etc/selinux/config ,把 SELINUX=enforcing 改为 SELINUX=disabledvi /etc/selinux/configSELINUX=disabled二、查看你的 $HADOOP_HOME/etc/hadoop 下的 core-site.xml 和 hdfs-site.xml 是否配置好三、必须在 ...原创 2019-01-27 10:38:56 · 13009 阅读 · 0 评论 -
Hadoop 的三种运行模式_本地模式_伪分布式模式
演示的版本是:2.7.2 官方文档 Hadoop运行模式Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。Hadoop官方网站:http://hadoop.apache.org/1、本地运行模式a) 官方Grep案例其实就是按照给定的条件找到符合条件的单词。 $ mkdir input //1、创建在hadoop-2.7.2文件下面...原创 2019-01-26 20:42:13 · 11940 阅读 · 0 评论