
Hadoop
文章平均质量分 68
YancyChang
每天进步一点点...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop DataNode 无法连接到主机NameNode
搭建hadoop 完全分布式,踩过的坑;其中一个坑,就是slave节点,不能够连接到master;第一个:提示无法注册到master 主机:查看DataNode 可知是不是这个问题;在查看日志的时候,发现是知道master IP;端口和IP都是对的;就一直没往配置主机的方面想;结果发现错在配置;这个问题是在配置文件 core-site.xml:转载 2017-11-12 17:03:30 · 1596 阅读 · 0 评论 -
Avro:使用Avro MapReduce进行排序
在MapReduce作业中,框架保证Reducer收到的key是有序的。利用这一点,我们可以对Avro文件进行排序。假设我们有如下的Schema:{"namespace": "me.lin.avro.mapreduce", "type": "record", "name": "User", "fields": [ {"name": &转载 2018-06-19 10:23:12 · 449 阅读 · 0 评论 -
avro的使用详解
一、avro的介绍1、概括avro是一个数据序列化系统,它提供丰富的数据结构快速可压缩的二进制数据形式存储持久数据的文件容器远程过程调用RPC简单的动态语言结合功能2、类型 二、avro在hadoop的使用1、模式确定例如:{"namespace": "example.avro", "type": "r原创 2018-06-19 16:15:00 · 15302 阅读 · 0 评论 -
Hadoop的三种调度器
(1)FIFO Scheduler将所有的Applications放到队列中,先按照作业的优先级高低、再按照到达时间的先后,为每个app分配资源。如果第一个app需要的资源被满足了,如果还剩下了资源并且满足第二个app需要的资源,那么就为第二个app分配资源,and so on。优点:简单,不需要配置。缺点:不适合共享集群。如果有大的app需要很多资源,那么其他app可能会一直等待。...转载 2018-11-08 11:33:09 · 7130 阅读 · 0 评论 -
MapReduce的工作机制
一、MapReduce执行过程1、提交作业向资源管理器(RecourceManager)申请一个新应用的ID。检查作业的输出。没有指定目录或目录不存在则抛出错误。检查作业的输入分片。检查输入路径并计算分片,如果计算不出分片,则抛出错误。共享应用和任务资源文件。将应用jar包,其他文件上传到HDFS。启动submitApplicition(),提交作业2、作业的初始化资源管理...原创 2018-11-11 17:45:00 · 342 阅读 · 0 评论 -
HDFS结构与升级
一、hdfs的namenode结构Version是hdfs的版本信息edits开头的是操作日志文件fsimage开头的是数据镜像文件.lock结尾的是锁文件,防止两个namenode共同操作数据文件二、主namenode和辅助namenode的工作流程三、hdfs的datanode结构blk开头的是一个hdfs数据块的原始字节数blk开头,.meta结尾的是该块的元数据...原创 2018-11-13 20:09:41 · 440 阅读 · 0 评论 -
map端和reduce端参数的调优策略
原文https://blog.youkuaiyun.com/qq_26442553/article/details/78760338使用hadoop进行大数据运算,当数据量及其大时,那么对MapReduce性能的调优重要性不言而喻。尤其是Shuffle过程中的参数配置对作业的总执行时间影响特别大。下面基于官网和工作中的情况总结和相关的调优策略。 1.关于map端的调优属性 2....转载 2018-11-11 20:02:12 · 624 阅读 · 0 评论 -
mr 过程setSortComparatorClass和setGroupingComparatorClass
代码:Customer.upsmart.recommend.TestReduceSortjob.setPartitionerClass(PartitionClass.class);对key取hash值(或其它处理),进入不同的reducejob.setSortComparatorClass(SortComparator.class);对进入同一个reduce的 键 或键的部分 进...转载 2018-11-14 11:40:11 · 1043 阅读 · 1 评论 -
MapReuce之输入类InputFormat
使用hadoop jar执行mapreduce任务时首先从hdfs中读取数据将这些数据解析为inputsplit,然后再将inputsplit中的内容解析为一个一个的<k,v>键值对,这个过程就是有InputFormat的子类完成的。之前在MR例子中有一段代码job.setInputFormatClass(TextInputFormat.class);就是指定TextInputForm...转载 2018-11-12 18:18:21 · 361 阅读 · 0 评论 -
Hadoop的JobControl设计及用法
JobControl设计及用法1、JobControl设计原理分析:JobControl由两个类组成:Job和JobControl。Job类封装了一个MapReduce作业及其对应的依赖关系,主要负责监控各个依赖作业的运行状态,一次更新自己的状态。作业刚开始处于WAITING状态。如果没有依赖作业或者所有作业均已运行完成,则进入READY状态。一旦进入REDAY状态,则作业可被提交到Hadoop集...转载 2018-06-05 21:26:01 · 1638 阅读 · 0 评论 -
hadoop的Writable常规使用
一、writable接口二、使用1、常规不讲例如:BooleanWritable、IntWritable、Text等,可通过构造器或者set方法创建,get方法获得。2、IntWritable、LongWritable、VintWritable和VlongWritable其中变长类型能节省储存空间,尤其是在-127到127之间的数值;而对于数值在整个值域空间...原创 2018-06-05 10:06:00 · 1857 阅读 · 0 评论 -
Sqoop常用参数及其使用
Sqoop的使用1、 上传并解压2、 修改sqoop/conf/sqoop=env.sh分别输入hadoop,hadoop,hive,zookeeperconf的目录3、 导入jdbc的jar包4、 进入到sqoop/bin目录下5、 从mysql到导入(1) mysql上传到hdfs(2) 导入到hive中注:如需指定h原创 2018-01-26 13:29:35 · 1069 阅读 · 0 评论 -
hadoop常用设置及用法
一、Hadoop配置文件修改(如果要设置集群,必须先设置主机名和hosts,否则DataNode不能和namenode相连接)1、hadoop-env.sh修改JAVA_HOME的值2、core-site.xml3、hdfs-site.xml4、mapred-site.xml(将mapred-site.xml.template重命名)5、yarn-site....原创 2017-11-17 23:04:58 · 500 阅读 · 0 评论 -
maven镜像地址以及匹配搜索页
国外:(最快) http://maven.ibiblio.org/maven2/http://central.maven.org/maven2/ -----官方http://repo1.maven.apache.org/maven2/http://repo1.maven.org/maven2/http://mirrors.ibiblio.org/pub/mirrors/mav原创 2017-11-22 21:08:54 · 890 阅读 · 0 评论 -
Hadoop数据传输工具sqoop
概述sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。sqoop架构:sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。sqoop的进一步发展可转载 2017-12-20 22:32:32 · 389 阅读 · 0 评论 -
Sqoop详解
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]引言Sqoop依赖与hadoop 数据的一方,存储在hdfs 底层的数据传输实现map/reduce yarn 只有map任务因为官网sqoop没有hadoop2.5对应的版本,要根据hadoop的版本进行编译(好像不用对应版本也可以,不过建议最好转载 2017-12-20 22:34:52 · 480 阅读 · 0 评论 -
Flume的安装与简单使用
本文环境如下: 操作系统:CentOS 7.2.1511 64位 Flume版本:1.6.01. 系统需求Flume需要Java 1.6及以上(推荐1.7),对Agent监控目录的读写权限。2. 下载软件包到Flume官网上http://flume.apache.org/download.html下载软件包,例如:wget "http://mirro转载 2017-11-26 14:06:59 · 305 阅读 · 0 评论 -
java对HDFS中文件的操作——FileSystem
1 概述:1 1 Hadoop 提供一类api可以通过java工程操作hdfs中的文件,包括:文件打开,读写,删除等、 目录的创建,删除,读取目录中所有文件等。2 2 需要处理hadoop的文件程序需要引入下面jar包,可以hadoop-1.2.1\lib找到。 hadoop-core和common-log,commons-conf...转载 2018-01-11 11:36:28 · 3225 阅读 · 0 评论 -
MapReduce计数器
1、MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。2、MapReduce计数器能做什么? MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,M转载 2018-01-13 11:00:26 · 1254 阅读 · 0 评论 -
Flume安装及简单部署
1 Flume简介Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方用于收集数据,同时Flume提供对数据的简单处理,并将数据处理结果写入各种数据接收方的能力。Flume作为Cloudera开发的实时日志收集系统,受到了业界的认可与广泛应用。2010年11月Cloudera开源了Flume的第一转载 2018-01-26 18:27:40 · 316 阅读 · 0 评论 -
Windows下远程提交Hadoop
下载需要的hadoop版本(https://hadoop.apache.org/releases.html)解压到本地路径(J:\hadoop-2.7.7)添加HADOOP_HOME,并添加进PATH下载winutils-master(https://download.youkuaiyun.com/download/yancychas/10800526)选择对应的hadoop版本,把bin里面的...原创 2018-11-22 13:55:04 · 349 阅读 · 0 评论