twj0823-优快云博客

原创 MapReduce系列之MapReduce的输出

针对前面介绍的输入格式，MapReduce也有相应的输出格式。默认情况下只有一个 Reduce，输出只有一个文件，默认文件名为 part-r-00000，输出文件的个数与 Reduce 的个数一致。如果有两个Reduce，输出结果就有两个文件，第一个为part-r-00000，第二个为part-r-00001，依次类推OutputFormat 接口OutputFormat主要...

2019-10-14 10:49:55 3298

原创 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-clean-plugin:3.0.0:clean

[ERROR] Failed to execute goal org.apache.maven.plugins:maven-clean-plugin:3.0.0:clean (default-clean) on project presto-root: Failed to clean project: Failed to delete /data0/presto-jdk8u181_workspa...

2019-10-12 14:26:23 4650 2

原创 Linux格式化磁盘并挂载分区

最近接到一个任务，需要把原来Presto Master节点换成新的高配机，然而，除了系统盘，其他盘都有待格式化。参考网上的文档，一顿操作，格式化磁盘并挂载分区的步骤如下。1、使用 df -lh 命令查看，系统只有系统盘2、fdisk -l 查看磁盘情况3、需要将标识为 /dev/sdb 的磁盘格式化为ext4格式，执行 mkfs -t ext4 /dev/sdb4、创建该磁盘要...

2019-08-01 21:11:54 540

原创 IDEA配置：使用代理访问内网服务器

由于公司电脑的防火墙除了80和443之外都封了，使用IDEA无法连接线上集群，经过摸索，一个简便的方式是设置IDEA的虚拟机参数，即 VM options参数，示例：-DsocksProxyHost=127.0.0.1 -DsocksProxyPort=1080（端口与隧道里设置一致）就可以访问内网服务器了。具体操作可以参考链接：https://blog.youkuaiyun.com/haoui123...

2019-07-12 19:56:54 6311

原创 Failed to execute goal org.apache.maven.plugins:maven-archetype-plugin:3.1.1:generate

新建Maven工程报错：Failed to execute goal org.apache.maven.plugins:maven-archetype-plugin:3.1.1:generate问题原因是没有跳过测试，解决方法有两种：一：命令行mvn clean package -Dmaven.test.skip=true二：在pom文件中配置<plugin> ...

2019-07-03 19:01:46 16126

原创 Error:java: 读取jar包时出错

将maven仓库中相应的jar包删掉，maven会重新下载即可

2019-05-29 12:25:28 2044

原创使用命令配置Windows环境变量

setx path "value;%path%" ，其中value为要添加的路径，注意set和setx的区别：set当前session有效，setx全局有效详细说明可以参考：https://blog.youkuaiyun.com/zhezhebie/article/details/79248665...

2019-05-29 11:18:25 829

原创 IDEA使用vue.js搭建前台应用

首先安装vue.js，可以参考链接：https://www.cnblogs.com/riddly/p/7857710.html主要步骤为：1.安装nodejs，自带npm环境。2.安装淘宝镜像。因国内访问国外链接速度过慢，建议将 npm 的注册表源设置为国内的镜像，可以大幅提升安装速度。打开cmd直接输入：npm install -g cnpm –registry=https:...

2019-05-27 15:57:01 3897

原创 GitLab使用小结

git安装配置：https://blog.youkuaiyun.com/huaishu/article/details/50475175git clone时报错：The requested URL returned error: 401 Unauthorized while accessing 自己的解决方法：Centos 6.5升级Git到Git2.9.2：https://blog.csdn...

2018-12-22 21:18:43 218

原创 Java heap space错误

最直接的解决方法是调整堆内存使用量，例如调整为一个G命令行方式：java -Xmx1024m MapFileReader在Eclipse中配置：右击打开Run Configurations，在Arguments选项卡中的VM arguments中填写参数信息另外也可以在eclipse的eclipse.ini文件中配置当然有的时候要从根本上解决问题，从还要从代码层面优化未...

2018-12-11 20:35:54 2547

原创 Linux长时间运行后如何清除缓存

Linux长时间开机，大量读写文件后会发现内存越来越少，最大的原因是缓存太多。可以使用如下命令清除缓存，腾出内存空间。echo 1 > /proc/sys/vm/drop_caches...

2018-12-10 10:10:24 1374

原创推荐两款外文检查语法错误和润色的软件

第一款是1Checker输入一段文本后：文本下面有修改意见，推荐使用。第二款：Ginger

2018-12-05 21:05:05 13326

原创 centos下安装protobuf

Hadoop使用protocol buffer来压缩和交换数据，所以Hadoop源码的编译与调试需要安装protobuf。在安装protobuf之前需要保证Centos安装了gcc和g++，可以参考https://blog.youkuaiyun.com/twj0823/article/details/84785389下载protobuf-2.5.0.tar.gz，下载地址：http://pan.ba...

2018-12-04 11:37:44 2180

原创 Centos下安装gcc和g++

2018-12-04 11:18:40 1341

原创 Alluxio介绍与作用

欢迎关注我的微信公众号“叨叨大数据”一、介绍AlluxioTachyon正式改名为alluxio，并发布v1.0.0版本，alluxio是内存高速虚拟分布式存储系统。Alluxio是一个以内存为中心的虚拟分布式存储系统，统一数据访问和桥梁的计算框架和底层存储系统。应用程序只需要alluxio就可以把访问存储在任何底层存储系统的数据连接。此外，Alluxio以内存为中心的架构实现数据访问...

2018-11-30 15:32:07 10803

原创 Flume的HDFS sink学习

前言：HDFS sink原生的解析时间戳的代码性能不高，可以通过修改源码提升性能。具体操作参考链接：http://www.cnblogs.com/lxf20061900/p/4014281.htmlHDFS sink常用配置项：type – The component type name, needs to be hdfs hdfs.path – HDFS di...

2018-11-30 15:26:30 566

原创 Flume入门学习

什么是Flume Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume主要有两个版本flume-og和flume-ng，一般情况下都是使用flume-ng，这里介绍的也...

2018-11-30 14:14:27 255

原创基于idea搭建Hadoop源码阅读环境

Hadoop源码是这么做，其他源码环境也类似。1、到官网下载Hadoop源码包，例如hadoop-2.6.5-src.tar.gz.https://www-eu.apache.org/dist/hadoop/common/hadoop-2.6.5/2、将下载的源码包解压到某个目录下，记住这个目录，后面导入Idea时需要这个目录。3、打开Idea，点击Import Project选项...

2018-11-27 10:36:40 5125 7

原创 MapReduce系列之过滤模式

过滤模式基本有四种：过滤，布隆过滤，Top 10 和去重过滤：将不感兴趣的记录过滤掉并将需要的数据保留下来类似用法：select * from table where 条件示例：map{ if（条件true） { context.write(); }} 布隆过滤：与过滤类似，只是他使用了一个独特的评估函数来作用于每一条记录。与普...

2018-11-26 17:57:34 1069

原创 MapReduce系列之自定义Partitioner

partitioner定义：分区器partitioner的作用是将mapper（如果使用了combiner的话就是combiner）输出的key/value拆分为分片（shard），每个reducer对应一个分片。默认情况下，partitioner先计算key的散列值（通常为md5值）。然后通过reducer个数执行取模运算：key.hashCode%(reducer个数)。这种方式不仅能够随...

2018-11-26 17:38:45 304

原创 MapReduce系列之全局参数、数据文件的传递与引用

MapReduce编程过程中全局参数、数据文件的传递与引用的主要有一下几种方法。1、读写HDFS文件通过利用Hadoop的Java Apl来实现读写HDFS文件，需要注意的是针对多个Map或Reduce的写操作会产生冲突，覆盖原有数据优点：能够实现读写，也比较直观缺点：要共享一些很小的全局数据也需要I/O，将占用系统资源，增加作业完成的资源消耗2、配置Job属性在MapRe...

2018-11-24 15:50:08 1493

原创 Windows下基于Eclipse搭建MapReduce开发环境

首先安装JDK和Eclipse，安装JDK的教程网上很多，Eclipse下在下来解压就可以。值的一提的是，JDK和Eclipse的版本需要对应起来。这里提供一个JDK安装链接：https://jingyan.baidu.com/article/6dad5075d1dc40a123e36ea3.htmlJDK和Eclipse是基本的Java开发环境，为了方便项目构建和依赖管理，推荐安装Maven...

2018-11-24 15:36:14 2988 4

原创 MapReduce系列之MapReduce的输入

文件是 MapReduce 任务数据的初始存储地。正常情况下，输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的：我们可以使用基于行的日志文件，也可以使用二进制格式，多行输入记录或者其它一些格式。这些文件一般会很大，达到数十GB，甚至更大。那么 MapReduce 是如何读取这些数据的呢？下面我们来学习 InputFormat 接口1、InputFormat接口InputF...

2018-11-23 21:11:12 1992

原创 MapReduce系列之MapReduce任务处理流程

MapReduce处理数据的流程一般是这样的：1、从HDFS上读取数据，因为是分布式与并行计算，需要将数据划分给多个MapReduce任务。HDFS存储文件也是分块的，每个MapReduce的输入一般是和HDFS的数据块是对应的。也就是说一个HDFS数据块作为一个MapReduce任务的输入。这是Hadoop默认的情况，我们也可以实现InputFormat自定义输入格式。2、Map进行...

2018-11-23 20:41:05 2487

原创个人遇到的一些Hadoop错误

1、org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block对应的文件和数据块是存在的，之所以报这个错，是因为打开的数据流过多没有及时关闭2、INFO ipc.Client: Retrying connect to server: slave1/192.168.233.131:8485. Already ...

2018-11-22 19:21:02 3162 2

原创 Java API 访问HA模式下的HDFS集群

在使用Hadoop Java API访问HDFS集群时，在创建FileSystem对象时，直接指定NameNode的IP以及端口号即可。但是在HA模式下，访问HDFS集群却有一些不同，需要指定NameSpace和主备NameNode的IP以及端口等信息，具体操作方式见如下代码：Configuration conf = new Configuration();conf.set("fs.def...

2018-11-22 18:02:34 2373 10

原创 Hadoop Yarn源码阅读系列（二）Yarn源码目录组织结构

Hadoop Yarn分为5部分：API、Common、Applications、Client和Server，他们的内容具体如下：YARN API（hadoop-yarn-api目录）：给出了YARN内存涉及的4个主要RPC协议的Java声明和Protocol Buffers定义，这4个RPC协议分别是ApplicationClientProtocol、ApplicationMasterPro...

2018-11-22 16:54:33 849

翻译 Hadoop Yarn源码阅读系列（一）Yarn架构

Yarn的基本思想是将JobTracker的两大主要职能：资源管理、作业调度/监控拆分为两个独立的进程：一个全局的ResourceManager和与每个应用对应的ApplicationMaster(AM)。ResourceManager和每个节点的NodeManager(NM)组成了全新的通用操作系统，以分布式的方式管理应用程序。ResourceManager拥有为系统中所有应用的资源分配的决...

2018-11-22 16:41:19 754

twj0823的博客