- 博客(28)
- 资源 (1)
- 收藏
- 关注
原创 MapReduce系列之MapReduce的输出
针对前面介绍的输入格式,MapReduce也有相应的输出格式。默认情况下只有一个 Reduce,输出只有一个文件,默认文件名为 part-r-00000,输出文件的个数与 Reduce 的个数一致。 如果有两个Reduce,输出结果就有两个文件,第一个为part-r-00000,第二个为part-r-00001,依次类推OutputFormat 接口OutputFormat主要...
2019-10-14 10:49:55
3219
原创 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-clean-plugin:3.0.0:clean
[ERROR] Failed to execute goal org.apache.maven.plugins:maven-clean-plugin:3.0.0:clean (default-clean) on project presto-root: Failed to clean project: Failed to delete /data0/presto-jdk8u181_workspa...
2019-10-12 14:26:23
4577
2
原创 Linux格式化磁盘并挂载分区
最近接到一个任务,需要把原来Presto Master节点换成新的高配机,然而,除了系统盘,其他盘都有待格式化。参考网上的文档,一顿操作,格式化磁盘并挂载分区的步骤如下。1、使用 df -lh 命令查看 ,系统只有系统盘2、fdisk -l 查看磁盘情况3、需要将标识为 /dev/sdb 的磁盘格式化为ext4格式,执行 mkfs -t ext4 /dev/sdb4、创建该磁盘要...
2019-08-01 21:11:54
508
原创 IDEA配置:使用代理访问内网服务器
由于公司电脑的防火墙除了80和443之外都封了,使用IDEA无法连接线上集群,经过摸索,一个简便的方式是设置IDEA的虚拟机参数,即 VM options参数,示例:-DsocksProxyHost=127.0.0.1 -DsocksProxyPort=1080(端口与隧道里设置一致)就可以访问内网服务器了。具体操作可以参考链接:https://blog.youkuaiyun.com/haoui123...
2019-07-12 19:56:54
6152
原创 Failed to execute goal org.apache.maven.plugins:maven-archetype-plugin:3.1.1:generate
新建Maven工程报错:Failed to execute goal org.apache.maven.plugins:maven-archetype-plugin:3.1.1:generate问题原因是没有跳过测试,解决方法有两种:一:命令行mvn clean package -Dmaven.test.skip=true二:在pom文件中配置<plugin> ...
2019-07-03 19:01:46
16069
原创 使用命令配置Windows环境变量
setx path "value;%path%" ,其中value为要添加的路径,注意set和setx的区别:set当前session有效,setx全局有效详细说明可以参考:https://blog.youkuaiyun.com/zhezhebie/article/details/79248665...
2019-05-29 11:18:25
778
原创 IDEA使用vue.js搭建前台应用
首先安装vue.js,可以参考链接:https://www.cnblogs.com/riddly/p/7857710.html主要步骤为:1.安装nodejs,自带npm环境。2.安装淘宝镜像。因国内访问国外链接速度过慢,建议将 npm 的注册表源设置为国内的镜像,可以大幅提升安装速度。打开cmd直接输入:npm install -g cnpm –registry=https:...
2019-05-27 15:57:01
3857
原创 GitLab使用小结
git安装配置:https://blog.youkuaiyun.com/huaishu/article/details/50475175git clone时报错:The requested URL returned error: 401 Unauthorized while accessing 自己的解决方法:Centos 6.5升级Git到Git2.9.2:https://blog.csdn...
2018-12-22 21:18:43
190
原创 Java heap space错误
最直接的解决方法是调整堆内存使用量,例如调整为一个G命令行方式:java -Xmx1024m MapFileReader在Eclipse中配置:右击打开Run Configurations,在Arguments选项卡中的VM arguments中填写参数信息另外也可以在eclipse的eclipse.ini文件中配置当然有的时候要从根本上解决问题,从还要从代码层面优化未...
2018-12-11 20:35:54
2461
原创 Linux长时间运行后如何清除缓存
Linux长时间开机,大量读写文件后会发现内存越来越少,最大的原因是缓存太多。可以使用如下命令清除缓存,腾出内存空间。echo 1 > /proc/sys/vm/drop_caches...
2018-12-10 10:10:24
1334
原创 centos下安装protobuf
Hadoop使用protocol buffer来压缩和交换数据,所以Hadoop源码的编译与调试需要安装protobuf。在安装protobuf之前需要保证Centos安装了gcc和g++,可以参考https://blog.youkuaiyun.com/twj0823/article/details/84785389下载protobuf-2.5.0.tar.gz,下载地址:http://pan.ba...
2018-12-04 11:37:44
2141
原创 Centos下安装gcc和g++
gcc很好安装,直接输入命令:yum install gcc 即可。检查一下是否安装成功:[root@master protobuf-2.5.0]# gcc --versiongcc (GCC) 4.4.7 20120313 (Red Hat 4.4.7-23)Copyright (C) 2010 Free Software Foundation, Inc.出现以上信息说明gcc...
2018-12-04 11:18:40
1313
原创 Alluxio介绍与作用
欢迎关注我的微信公众号“叨叨大数据”一、介绍AlluxioTachyon正式改名为alluxio,并发布v1.0.0版本,alluxio是内存高速虚拟分布式存储系统。Alluxio是一个以内存为中心的虚拟分布式存储系统,统一数据访问和桥梁的计算框架和底层存储系统。应用程序只需要alluxio就可以把访问存储在任何底层存储系统的数据连接。此外,Alluxio以内存为中心的架构实现数据访问...
2018-11-30 15:32:07
10676
原创 Flume的HDFS sink学习
前言:HDFS sink原生的解析时间戳的代码性能不高,可以通过修改源码提升性能。具体操作参考链接:http://www.cnblogs.com/lxf20061900/p/4014281.htmlHDFS sink常用配置项:type – The component type name, needs to be hdfs hdfs.path – HDFS di...
2018-11-30 15:26:30
499
原创 Flume入门学习
什么是Flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前Flume主要有两个版本flume-og和flume-ng,一般情况下都是使用flume-ng,这里介绍的也...
2018-11-30 14:14:27
227
原创 基于idea搭建Hadoop源码阅读环境
Hadoop源码是这么做,其他源码环境也类似。1、到官网下载Hadoop源码包,例如hadoop-2.6.5-src.tar.gz.https://www-eu.apache.org/dist/hadoop/common/hadoop-2.6.5/2、将下载的源码包解压到某个目录下,记住这个目录,后面导入Idea时需要这个目录。3、打开Idea,点击Import Project选项...
2018-11-27 10:36:40
5073
7
原创 MapReduce系列之过滤模式
过滤模式基本有四种:过滤,布隆过滤,Top 10 和去重过滤:将不感兴趣的记录过滤掉并将需要的数据保留下来类似用法:select * from table where 条件示例:map{ if(条件true) { context.write(); }} 布隆过滤:与过滤类似 ,只是他使用了一个独特的评估函数来作用于每一条记录。与普...
2018-11-26 17:57:34
1007
原创 MapReduce系列之自定义Partitioner
partitioner定义:分区器partitioner的作用是将mapper(如果使用了combiner的话就是combiner)输出的key/value拆分为分片(shard),每个reducer对应一个分片。默认情况下,partitioner先计算key的散列值(通常为md5值)。然后通过reducer个数执行取模运算:key.hashCode%(reducer个数)。这种方式不仅能够随...
2018-11-26 17:38:45
270
原创 MapReduce系列之全局参数、数据文件的传递与引用
MapReduce编程过程中全局参数、数据文件的传递与引用的主要有一下几种方法。1、读写HDFS文件通过利用Hadoop的Java Apl来实现读写HDFS文件,需要注意的是针对多个Map或Reduce的写操作会产生冲突,覆盖原有数据优点:能够实现读写,也比较直观缺点:要共享一些很小的全局数据也需要I/O,将占用系统资源,增加作业完成的资源消耗2、配置Job属性在MapRe...
2018-11-24 15:50:08
1454
原创 Windows下基于Eclipse搭建MapReduce开发环境
首先安装JDK和Eclipse,安装JDK的教程网上很多,Eclipse下在下来解压就可以。值的一提的是,JDK和Eclipse的版本需要对应起来。这里提供一个JDK安装链接:https://jingyan.baidu.com/article/6dad5075d1dc40a123e36ea3.htmlJDK和Eclipse是基本的Java开发环境,为了方便项目构建和依赖管理,推荐安装Maven...
2018-11-24 15:36:14
2917
4
原创 MapReduce系列之MapReduce的输入
文件是 MapReduce 任务数据的初始存储地。正常情况下,输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其它一些格式。这些文件一般会很大,达到数十GB,甚至更大。那么 MapReduce 是如何读取这些数据的呢?下面我们来学习 InputFormat 接口1、InputFormat接口InputF...
2018-11-23 21:11:12
1936
原创 MapReduce系列之MapReduce任务处理流程
MapReduce处理数据的流程一般是这样的:1、从HDFS上读取数据,因为是分布式与并行计算,需要将数据划分给多个MapReduce任务。HDFS存储文件也是分块的,每个MapReduce的输入一般是和HDFS的数据块是对应的。也就是说一个HDFS数据块作为一个MapReduce任务的输入。这是Hadoop默认的情况,我们也可以实现InputFormat自定义输入格式。2、Map进行...
2018-11-23 20:41:05
2437
原创 个人遇到的一些Hadoop错误
1、org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block对应的文件和数据块是存在的,之所以报这个错,是因为打开的数据流过多没有及时关闭2、INFO ipc.Client: Retrying connect to server: slave1/192.168.233.131:8485. Already ...
2018-11-22 19:21:02
3090
2
原创 Java API 访问HA模式下的HDFS集群
在使用Hadoop Java API访问HDFS集群时,在创建FileSystem对象时,直接指定NameNode的IP以及端口号即可。但是在HA模式下,访问HDFS集群却有一些不同,需要指定NameSpace和主备NameNode的IP以及端口等信息,具体操作方式见如下代码:Configuration conf = new Configuration();conf.set("fs.def...
2018-11-22 18:02:34
2311
10
原创 Hadoop Yarn源码阅读系列(二)Yarn源码目录组织结构
Hadoop Yarn分为5部分:API、Common、Applications、Client和Server,他们的内容具体如下:YARN API(hadoop-yarn-api目录):给出了YARN内存涉及的4个主要RPC协议的Java声明和Protocol Buffers定义,这4个RPC协议分别是ApplicationClientProtocol、ApplicationMasterPro...
2018-11-22 16:54:33
797
翻译 Hadoop Yarn源码阅读系列(一)Yarn架构
Yarn的基本思想是将JobTracker的两大主要职能:资源管理、作业调度/监控拆分为两个独立的进程:一个全局的ResourceManager和与每个应用对应的ApplicationMaster(AM)。ResourceManager和每个节点的NodeManager(NM)组成了全新的通用操作系统,以分布式的方式管理应用程序。ResourceManager拥有为系统中所有应用的资源分配的决...
2018-11-22 16:41:19
722
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人