
hadoop
文章平均质量分 67
飞鸿踏雪泥-
这个作者很懒,什么都没留下…
展开
-
Hadoop基础知识(二)
Hadoop Shell介绍bin目录下的Hadoop脚本是最基础的集群管理脚本,用户可以通过该脚本完成各种功能,如HDFS文件管理、MapReduce作业管理等。该脚本的使用方法为: hadoop[–config confdir]COMMAND 其中,–config用于设置Hadoop配置文件目录,默认目录为 ${HADOOP_HOME}/conf 而COMMAND是具体的某个命令。常用的原创 2015-10-17 22:41:06 · 390 阅读 · 0 评论 -
Hadoop基础知识
Hadoop对于海量数据的操作:1)存储:分布式,集群的概念,管理(主节点,从节点),HDFS(Hadoop Distributed FileSystem ) 2)分析:分布式,并行,离线计算框架。管理(主节点,从节点),MapReduceHDFS + MR 思想 尽可能移动计算到数据端,而非移动数据到计算端。(图中上面是将数据移动到计算端,下面是将计算移动到数据端 ) 硬件和组件的故障是原创 2015-10-17 15:12:54 · 678 阅读 · 0 评论 -
MapReduce架构
MapReduce定义源自 Google的MapReduce论文发表于2004年12月 Hadoop MapReduce是Google MapReduce的克隆版MapReduce特点易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理MapReduce编程模型一种分布式计算模型框架,解决海量数据的计算问题MapReduce将整个并行计算过程抽象到两个函数 ——>Map(映原创 2015-11-08 14:37:27 · 3296 阅读 · 0 评论 -
Hadoop数据类型讲解
序列化所谓序列化(serialization),是指将结构化对象转化为字节流,以便在网络上传输或写到磁盘进行永久存储。反序列化(deserialization)是指将字节流转回结构化对象的过程。序列化在分布式数据处理的两大领域经常出现:进程间通讯和永久存储。在Hadoop中,系统中多个节点上进程间的通信是通过“远程过程调用”(RPC)实现的。RPC协议将消息序列化成二进制流后发送到远程节点,远程节点原创 2015-11-08 22:54:27 · 1727 阅读 · 0 评论 -
HDFS应用
HDFS实际应用场景之文件合并场景合并小文件,存放到HDFS上。例如:当需要分析来自许多服务器的Apache日志时,各个日志文件可能比较小,然而Hadoop更适合处理大文件,如果将所有的文件合并,再复制上传到HDFS上的话,需要占用本地计算机大量的磁盘空间。采取在向HDFS复制上传文件过程中将小文件进行合并,效果会更好。开发程序开发一个PutMerge程序,用于将合并文件后放入HDFS。命令getm原创 2015-10-24 10:29:42 · 717 阅读 · 0 评论 -
HDFS课程
HDFS定义源自于Google的GFS论文 发表于2003年10月 HDFS是GFS的克隆版Hadoop Distributed File System 易于扩展的分布式文件系统 运行在大量普通廉价机器上,提供容错机制 为大量用户提供性能不错的文件存取服务HDFS设计目标非常巨大的分布式文件系统 万个以上的节点,亿份以上文件,10PB的容量以上 1 ZB = 1024 EB 1原创 2015-10-24 10:41:16 · 1001 阅读 · 0 评论 -
初级案例
Hadoop MapReduce 手机流量统计1)分析业务需求:用户使用手机上网,存在流量的消耗。流量包括两部分:其一是上行流量(发送),其二是下行流量(接收)。每种流量在网络传输过程中,有两种形式说明:包的大小,流量的大小。使用手机上网,以手机号为唯一标识进行记录。这个记录包括很多信息,需要的信息字段: 实际需要的字段: 手机号码,上行数据包数,下行数据包数,上行总流量,下行总流量2)自定义数原创 2015-11-09 21:16:44 · 470 阅读 · 0 评论 -
Hadoop内容提纲
hadoop生成环境都是在Linux环境下,不过Hadoop2.x已经开始支持Windows环境。1)Linux 环境搭建:使用的VMware虚拟机搭建的环境。 2)Linux基本命令操作和基本常识 3)Linux系统环境的基本配置,配置IP地址,配置主机名,关闭防火墙 4)远程链接Linux系统的工具:FTP 工具,命令行工具,桌面化工具配置主机网络 右击“电脑”标志,选择编辑 ……Li原创 2015-10-12 23:20:23 · 490 阅读 · 0 评论