
【大数据】➣ Hadoop
gamedev˚
很多东西不是你觉得有用才去学,而是学了才知道它有用。
展开
-
hadoop2.x的编译过程总结
hadoop2.x的编译过程总结所有编译过程都可以在说明xml中得到有关信息,要进行编译的目的是,hadoop2.x中的lib包是32位的,而我们实际学习和生产的机器大都是64位,这使得我们要重新进行编译。1.准备工作a) hadoop2.x的源码包,这里以hadoop-2.4.1-src.tar.gz为例。b) apache-maven-3.0.5-bin.tar.gzc) findbugs-原创 2017-10-28 09:36:11 · 427 阅读 · 0 评论 -
ipc.Client: Retrying connect to server,failed on socket timeout exception (已解决)
在格式化NameNode出现下面异常,通过异常信息,我们初步可以看到是因为ipc.client,即无法访问集群中的journalnode主机所导致。18/02/08 15:47:47 INFO namenode.FSNamesystem: Retry cache on namenode is enabled18/02/08 15:47:47 INFO namenode.FSNamesyste...原创 2018-02-08 16:16:48 · 3392 阅读 · 0 评论 -
Hadoop集群搭建个人规范
从头至尾Hadoop多台主机集群搭建帮助文档资源 【链接:https://pan.baidu.com/s/1mjJPq2k 密码:9ukr】补充事项: ○ CentOS6.6 镜像文件下载 地址:http://vault.centos.org/6.6/isos/x86_64/○ 集群部署概况: 机器 IP地址 部署应用 hadoop1 192.16...原创 2018-02-08 14:37:18 · 532 阅读 · 0 评论 -
Hadoop Web应用程序代理服务器 | Hadoop Web Application Proxy
Web Application ProxyWeb Application Proxy 是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但可以配置为以独立模式运行。 代理的原因是通过YARN减少网络攻击的可能性。在YARN中,应用程序主(AM)有责任提供一个web UI并将该链接发送到RM。这就引出了一些潜在的问题。 RM作为一个受信任的用户运行,访问该web...翻译 2018-03-01 00:51:15 · 3194 阅读 · 0 评论 -
Hadoop平衡器管理员指南 | Hadoop Balancer Administrator Guide
平衡器是一种平衡HDFS集群磁盘空间使用情况的工具数据节点变满或新空节点加入群集时。该工具被部署为一个可由集群管理员在实时HDFS上运行的应用程序群集,而应用程序添加和删除文件。SYNOPSISTo start: sbin/start-balancer.sh [-threshold <threshold>] Example: bin/ start-balancer.sh s...翻译 2018-03-02 21:01:11 · 596 阅读 · 0 评论 -
学习Hadoop官方文档之 Hadoop文件系统元数据的持久性与运作机制
NameNode中EditLog与FsImage文件的工作机制EditLog和FsImage存储HDFS名称空间由NameNode存储。NameNode使用名为EditLog的事务日志来持久记录元数据在本次集群启动后发生的所有更改操作。 例如,在HDFS中创建一个新文件会导致NameNode向EditLog中插入一条记录,指出这一点。同样,更改文件的复制因子会导致将新记录插入到Edi...原创 2018-03-03 10:59:11 · 373 阅读 · 0 评论 -
Hadoop集群垃圾箱配置 | fs.trash.interval
启用Hadoop集群垃圾箱配置配置参数:<property> <name>fs.trash.interval</name> <value>10</value> <description>检查点被删除后的分钟数。 如果为零,垃圾桶功能将被禁用。 该选项可以在服务器和客户端上配置。...翻译 2018-03-03 14:12:10 · 5330 阅读 · 0 评论 -
HDFS快照 | HDFS Snapshots
HDFS快照概况 HDFS快照是文件系统的只读时间点副本。快照可以在文件系统的子树上或整个文件系统上进行。快照的一些常见用例是数据备份,防止用户错误和灾难恢复。 HDFS快照的实施非常高效: 快照创建是即时的:成本为O(1),不包括索引节点查找时间。额外内存仅在相对于快照进行修改时使用:内存使用量为O(M),其中M是修改的文件/目录的数量。...原创 2018-03-03 14:50:20 · 1103 阅读 · 0 评论 -
HDFS创建全局快照
HDFS创建快照的详细说明文档请参见: [HDFS快照 | HDFS Snapshots] http://blog.youkuaiyun.com/coder__cs/article/details/79430333允许创建目录的快照。如果操作成功完成,则该目录变为快照可见。[elon@hadoop4 bin]$ hdfs dfsadmin -allowSnapshot /Allowing sna...原创 2018-03-03 15:13:42 · 666 阅读 · 0 评论 -
HDFS高可用性 手动故障转移和自动故障转移配置教程
本文适用范围,对于任何官方开源包安装的集群环境要配置HA NameNode,你必须将多个配置选项添加到你的hdfs-site.xml配置文件。这里我先给出全部的配置项,然后接下来会逐步提及各配置项。<configuration><property> <name>dfs.nameservices</name> <valu...原创 2018-03-04 16:33:37 · 2629 阅读 · 0 评论 -
org.apache.hadoop.io.nativeio.NativeIO$Windows.access(null) entry in command string: null chmod 0700
环境:windowsHadoop版本:hadoop2.7.3开发工具:eclispe-hadoop-plugin运行map reduce任务报错:(null) entry in command string: null chmod 0700解决办法:在https://github.com/SweetInk/hadoop-common-2.7.1-bin中下载winutils.exe,libwinu...转载 2018-03-05 23:17:25 · 1182 阅读 · 0 评论 -
HDFS性能优化与学习笔记
HDFS要点HDFS性能优化HDFS故障恢复和容灾备份HDFS要点1.HDFS具有主/从架构。一个HDFS集群包含一个NameNode,一个主服务器,用于管理文件系统名称空间并管理客户端对文件的访问。此外,还有许多DataNode,通常是群集中的每个节点一个,它们管理连接到它们所运行的节点的存储。HDFS公开文件系统名称空间并允许用户数据存储在文件中。在内...原创 2018-03-23 09:07:10 · 1835 阅读 · 0 评论 -
Hadoop MapReduce 计算框架剖析与学习笔记
要点剖析MR程序性能优化作业优化作业输入和作业输出要点剖析【1】该键和值类必须由框架序列化,因此需要实现Writable接口。此外,关键类必须实现WritableComparable接口,以方便框架进行排序。 Input and Output types of a MapReduce job: (input) <k1, v1> -> map -...原创 2018-03-23 09:09:59 · 453 阅读 · 0 评论 -
Hadoop官方文档学习之 HDFS高可用性QJM与NFS模式
背景在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。每个群集都有一个NameNode,如果该机器或进程不可用,整个群集将不可用,直到NameNode重新启动或在单独的计算机上启动为止。HDFS高可用性功能通过提供在具有热备份的主动/被动配置中在同一集群中运行两个冗余NameNode的选项来解决上述问题。这允许在计算机崩溃的情况下快速故障转移到新的Na...原创 2018-03-06 17:04:44 · 1137 阅读 · 0 评论 -
Hadoop官方文档学习之 HDFS联邦体系结构
背景HDFS有两个主要层次:Namespaces - 由目录,文件和块组成。 - 它支持所有与Namespaces相关的文件系统操作,例如创建,删除,修改和列出文件和目录。块存储服务有两个部分:块管理(在Namenode中执行) 通过处理注册和定期心脏跳动提供Datanode群集成员身份。进程阻止报告并维护块的位置。支持块相关的操作,如创建,删除,修改...原创 2018-03-06 20:35:07 · 780 阅读 · 0 评论 -
java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IIL...
在window Eclipse中运行Hadoop和Spark程序时会遇见如下异常错误java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/String;J原创 2018-01-22 13:51:31 · 3651 阅读 · 3 评论 -
hadoop完全分布式环境启动步骤说明
经过了一些细节调整,完全分布式环境算是实测通过了,现就自己搭建的环境的启动步骤做一些总结与说明。三台主机构成分布式集群环境:master 主节点slave01 子节点1slave02 子节点2原创 2017-11-18 21:22:50 · 1442 阅读 · 0 评论 -
Hadoop和Saprk的异同
解决问题的层面不一样首先Hadoop和Spark两者都是大数据框架,而Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,除了HDFS分布式文件系统以外,还提供MapReduce的数据处理功能;而Spark,则是一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。数据处理速度和适用场景就数据处理速度而言,原创 2017-12-21 17:11:07 · 499 阅读 · 0 评论 -
Hadoop、Storm和Spark 三者的区别、比较
一、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存原创 2017-12-21 22:15:05 · 12157 阅读 · 0 评论 -
大数据开发基础面试题
面试问题 问:什么是大数据? 答:大数据是一个术语,它描述了大量的数据集,这些数据集在数据库管理工具或传统数据处理技术的帮助下非常难以捕获,存储,处理,检索和分析。 问:大数据有什么特点? 1.体积收集各种来源的数据,包括社交媒体,股票市场,飞机,电子商务网站。 2.Variety-数据的类型和性质(音频,图像,视频)。 3.速度 - 数据产生的速度非常大。 问:如何分析大数据原创 2017-12-18 18:09:20 · 1881 阅读 · 0 评论 -
分布式文件系统与HDFS笔记
分布式文件系统 Distributed File System数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际上是通过网络来访问文件的动作,由程序与用户看原创 2017-11-15 22:29:54 · 443 阅读 · 0 评论 -
基于MapReduce的应用案例
项目托管于 Github,欢迎Star | Fork环境说明Hadoop搭建环境:| 虚拟机操作系统: CentOS6.3 64位,单核,1G内存 | JDK:1.7.0_60 64位 | Hadoop:2.4.1MR程序编译环境:| Eclipse IED | mapred.LocalJobRunner本地运行模式准备测试数据测试数据包括两个文件原创 2017-12-06 21:48:41 · 3043 阅读 · 1 评论 -
hadoop-mapreduce
MapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。执行步骤map任务处理1.1 读取输入文件内容,解析成key、value对。对输入文原创 2017-11-15 22:59:34 · 362 阅读 · 0 评论 -
hadoop-mapreduce进阶
本文围绕四部分展开 - Partitioner编程 - 自定义排序编程 - Combiner编程 - 常见的MapReduce算法Partitioner编程原创 2017-11-15 22:47:17 · 703 阅读 · 0 评论 -
mapreduce job提交的几种运行方式
总共整理下来有三大类:集群上直接通过jar包来调用,输入和输出文件必须都存在hdfs集群上linux环境下,在eclipse中集群或本地调用程序,以及输入和输出文件存于集群或本地windows环境下,在eclipse中集群或本地调用程序,以及输入和输出文件存于集群或本地原创 2017-10-31 18:09:24 · 1788 阅读 · 1 评论 -
Hadoop-MapReduce之WordCount的实现
longsl / Mapreduce的wordcount计数器实现 程序做一些补充笔记wordcount计数逻辑简单概述:从文件夹中读取文本文件,即源数据计数分为map阶段和reduce两阶段实现,map阶段将单词做分割,并将每个单词打上标记—><key:word,value:1>的形式.在reduce阶段,将key值相同的word做一个合并原创 2017-10-30 22:55:41 · 513 阅读 · 0 评论 -
hadoop2.x完全分布式环境搭建 | 适用于hadoop完全分布式集群环境搭建
转载请注明出处:http://blog.youkuaiyun.com/coder__cs/article/details/78571366 本文出自【elon33的博客】hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为原创 2017-11-05 13:14:55 · 705 阅读 · 0 评论 -
hadoop2.x 伪分布式环境搭建 | 适用于hadoop伪分布式集群环境搭建
转载请注明出处:http://blog.youkuaiyun.com/coder__cs/article/details/78372646 本文出自【elon33的博客】通过详细介绍Hadoop2.4版本的伪分布环境搭建,来阐述适用于hadoop伪分布式集群环境搭建的具体步骤。1.准备Linux环境1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -原创 2017-10-28 08:36:53 · 916 阅读 · 0 评论 -
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform..
启动或执行Hadoop | Spark程序时出现警告18/01/22 17:50:39 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable原因分析这是因为 $HADOOP_HOME/lib/na原创 2018-01-22 19:33:37 · 1165 阅读 · 0 评论 -
Yarn 中的调度策略剖析
YARN中的调度策略分为三种,FIFO调度器(FIFO Scheduler),容量调度器(Capacity Scheduler)和公平调度器(Fair Scheduler)。YARN Resource Manager 默认的资源调度策略为容量调度器(Capacity Scheduler) 见yarn-default.xml name value description...原创 2018-04-03 15:19:06 · 829 阅读 · 0 评论