
hadoop
zhoudado921
这个作者很懒,什么都没留下…
展开
-
Hadoop序列化
Hadoop没有使用jdk的序列化机制,因为hadoop只需要数据进行传递,而jdk的当有继承什么的,特别的麻烦。序列化概念:1)序列化(Serializable)是指把结构化对象转化为字节流2)反序列化(Deserializable)是序列化的逆过程。即把字节流转回结构化对象3)java序列化(java.io.Serializable)Hadoop序列化特点:1、紧凑:高效使用存储空...原创 2019-11-17 21:08:51 · 436 阅读 · 0 评论 -
MapReduce概述和例子实现
MapReduce概述:MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key,value对,表示函数的输入信息。执行步骤:1、map任务处理1.1读取输入文件内容,解析成key、value对...原创 2019-11-17 20:39:55 · 203 阅读 · 0 评论 -
MapReduce讲述1.0的讲解
MapReduce概述:MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key,value对,表示函数的输入信息。执行步骤:1、map任务处理1.1读取输入文件内容,解析成key、value对...原创 2019-11-15 19:35:26 · 272 阅读 · 0 评论 -
HDFS读写过程
HDFS读过程:1、初始化FileSystem,然后客户端(client)用FileSystem的open()函数打开文件。2、FileSystem用RPC调用元数据节点,得到文件的数据块信息,对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。3、FileSystem返回FSDataInputStream给客户端,用来读取数据,客户端调用stream的read()函数开始读取数据。...原创 2019-11-11 14:58:55 · 223 阅读 · 0 评论 -
Hadoop的Rpc
Remote Procedure Call(1)RPC–远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。Rpc协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,rpc跨越了传输层和应用层。rpc使得开发包括网络分布式多程序在内的应用程序更加容易。(2)rpc采用客户机/服务器模式。请求程序就是一个客户...原创 2019-11-07 16:12:14 · 212 阅读 · 0 评论 -
hadoop的基础讲解
一、DataNode1、提供真实文件数据的存储服务。(1)文件块(block):最基本的存储单元。对于文件内容而言,一个文件的长度大小是size,那么文件从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个block。HDFS默认block大小是128MB,以一个256MB文件,共有256/128=2个block。(2)不同于普通文件系统的是,HDFS中,如果...原创 2019-11-07 15:09:34 · 249 阅读 · 0 评论 -
Hadoop之hdfs的shell
1、调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。2、所有的FS shell命令使用URI路径作为参数。URI的格式是scheme://authority/path。HDFS的scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。例如:/paren...原创 2019-11-06 16:21:15 · 130 阅读 · 0 评论 -
hadoop搭建环境实现ssh免登陆
在完成分布式系统之后:Hadoop搭建伪分布式配置ssh免登陆密钥,因为Hadoop的底层就是ssh,每次启动都需要进行输入密码1、生成ssh免登陆密钥ssh-keygen -t rsa执行完之后,产生两个文件id_rsa(私钥)、id_rsa.pub(公钥),将公钥拷贝到要免登陆的机器上cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized...原创 2019-11-06 14:30:26 · 166 阅读 · 1 评论 -
hdfs的web端口
HDFS对外提供了可访问的http server,开放了很多端口,下面介绍几个常用的端口:50070端口,查看NameNode状态50075端口,查看DataNode50090端口,查看secondaryNameNode50030端口,查看JobTracker状态50060端口,查看TaskTracker...原创 2019-11-06 11:03:22 · 6239 阅读 · 0 评论 -
Hadoop搭建的伪分布式(基于centos)
提示:以下是基于centos的Hadoop伪分布式搭建(Ubuntu相同流程,但是方法也可能不同)一、准备Linux环境1、(1)windows–>打开网络和共享中心–>更改适配器设置–>右键VMnet1–>属性–>双击IPv4–>设置windows的IP:192.168.1.110 子网掩码 255.255.255.0–>点击确定(2)在虚拟机软...原创 2019-11-05 16:54:45 · 270 阅读 · 0 评论