
hadoop
LC900730
这个作者很懒,什么都没留下…
展开
-
Zookeeper
Linux下下载Zookeeperwget http://mirrors.hust.edu.cn/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gzZookeeper配置文件dataDir=’/XX/XX’(数据的存放目录)server.1=192.168.xx.xx(或者主机名):2888(leader与follower通信端口) :原创 2017-11-11 15:15:52 · 538 阅读 · 0 评论 -
Hadoop中的Java api
从Hadoop文件系统中读取文件1.通过java.net.URL对象打开数据流,读取数据InputStream in=null;try{ in=new URL('hdfs://host/path').openStream();}finally{ IOUtils.closeStream(in);}2.通过FileSystem API读取数据FileSystem是一个普通的文件系统原创 2017-12-05 22:35:27 · 697 阅读 · 0 评论 -
Hadoop文件操作
JobtrackerJobtracker守护进程是应用程序和Hadoop之间的纽带。一旦代码提交到集群上,JobTracker就会确定执行计划,包括决定处理哪些文件,为不同的任务分配节点以及监控所有任务的运行。如果任务失败,JobTracker将会自动重启任务,但是所分配的节点可能会不同,同时会受到预定义的重试次数限制。 每个Hadoop集群只有一个JobTracker守护进程,通常运行在服务器集原创 2017-11-23 22:32:11 · 383 阅读 · 0 评论 -
Hadoop中文件操作
hadoop文件的序列化Hadoop中序列化机制在每个类对象第一次出现时候保持了每个类的信息,如类名,第二次出现时候会有一个类的reference,导致空间浪费。Java序列化不能复用对象,Java反序列化时候每次需要构造出新对象。在Hadoop序列化机制中,反序列化的对象是可以复用的。Hadoop中定义了两个序列化相关的接口:Writable和Comparable,这2个接口可以合成一个Wr原创 2017-11-22 15:21:32 · 278 阅读 · 0 评论 -
hadoop中节点
namenode主要功能namenode提供名称查询服务namenode保存metadate信息。(包括oweership和permissions)。文件包含哪些块;Block保存在哪个Datanode(由DataNode启动时候上报)NameNode的metadate信息启动后会加载到内存。datanode主要功能Hadoop 集群包含一个NameNode和大量的DataNode保存bl原创 2017-11-22 14:13:38 · 2293 阅读 · 0 评论 -
hadoop配置及启动
logo.gif?加载是向tomcat提交向hdfs集群汇聚数据 producer一边读log,然后写到hdfs。 flume如看了又看 请求某个action 猜你喜欢 。 请求某个action 热门关注 请求某个action传统io: 1.先将文件内容从磁盘中拷贝到操作系统buffer 2.再从操作系统buffer拷贝到程序应用buffer 3.从程序buffer拷贝原创 2017-11-12 21:53:00 · 322 阅读 · 0 评论 -
Hadoop概念
Jobconf对象指定了作业的各种参数。它授予我们对整个作业如何运行对控制权。当我们在Hadoop集群上运行这个作业时,我们将代码打包成JAR文件(Hadoop会在集群中分发这个包)。我们没有明确指定这个JAR文件对名称,而是在JobConf构造函数中传递一个类,Hadoop会找到这个包含此类对JAR文件。 在创建JobConf对象后,我们将指定输入输出路径。通过调用FileInputFormat原创 2017-11-16 13:59:27 · 281 阅读 · 0 评论 -
JavaApi操作Hadoop
//在上传的时候出现权限问题,解决方法是hdfs-site.xml中<property> <name>fs.permissions</name> <value>false</value></property>并且将hdfs的data目录权限开放。Java Api上传package cn.itcast.bigdata.hdfs;import java.io.IOException;原创 2017-11-20 18:47:56 · 332 阅读 · 0 评论 -
HDFS写数据
上传流程1.首先客户端向namenode请求上传文件 /aaa/cls.avi 元数据存储在内存中 namenode检查该路径是否有文件等,返回给客户端2.响应,可以上传。rpc请求,请求上传一个block,请求返回datanode。 3.返回datanode列表,(dn1/dn3/dn4..), namenode给这些datanode的讲究是: 1.原创 2017-11-15 09:36:49 · 680 阅读 · 0 评论 -
Hadoop集群搭建中的问题
节点启动正常,从节点失败从连接主的时候出现问题,查看日志发现,slave在连接master的端口失败,retry了多次。原因:腾讯云hosts文件不支持配置本主机的外网ip,master只监听了127.0.0.1的9002端口,而slave连接的是master(外网ip)的9002端口,因此出现slave连接master失败集群启动中配置顺序hadoop2.6.5core-site.xml<prop原创 2017-11-19 21:02:24 · 423 阅读 · 0 评论 -
hadoop杂
MapReduce输入的键和值并不是数据固有的属性,它们是由分析数据的人来选择的。hdfs是提供数据存储的,mapreduce是方便数据计算的 a.hdfs又对应namenode和datanode,namenode负责保存元数据的基本信息; datanode之间存放数据本身 b.mapreduce对应jobtracker负责分发任务,tasktracker负责执行具体任务 c所以对应原创 2017-11-06 19:12:51 · 303 阅读 · 0 评论 -
hadoop配置
配置项1<property> <name>fs.defaultFS</name> <value>hdfs://mini1:9000</value></property>hdfs://mini1:9000 nameNode+Port URI: jdbc:mysql://localhost:3306 schema hadoop要使用哪一种文件系统配置项2<property>原创 2017-11-12 21:52:31 · 336 阅读 · 0 评论 -
HDFS文件
客户端想上传文件,询问dataNode,dataNode查询元信息后返给客户端(如2号仓库可以存放),客户端拿到信息后,与dataNode建立流通讯。 客户端不是写多分,而是dataNode水平进行复制,nameNode进行记录。数据量越来越多,在一个操作系统管辖的范围存不下,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统的来管理多台机器上的文件,这就是分布式文原创 2017-11-12 12:19:28 · 381 阅读 · 0 评论 -
Hadoop中WordCount
map()/*** * KEYIN:默认情况下,是mr框架所读到的一行文本的起始偏移量,Long,hadoop中有自己的更精简的序列化接口,不用Long,而用LongWritable * VALUEIN:默认情况下,是mr框架所读到的文本内容, String Text * KEYOUT:用户自定义逻辑处理完成之后输出数据中的key,单词 String * VALUEOUT:用户自定原创 2017-12-06 10:10:46 · 398 阅读 · 0 评论