- 博客(18)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 HBase shell 常用命令
1、进入hbase命令行界面$HBASE_HOME/bin/hbase shell2、查看当前用户hbase(main):001:0> whoami3、表的管理 (1)查看所有表hbase(main):002:0> list (2)创建表 语法:create <ta...
2018-12-06 15:39:43
914
原创 MapReduce工作流程、Yarn工作机制
一、MapReduce工作流程 二、yarn的工作机制0、MapReduce程序提交的客户端所在的节点上。1、客户端向ResourceManager申请一个Application。2、ResourceManager 返回一个Application资源提交的HDFS路径和Application_id。3、客户端将运行job的资源(job.xml、job.spli...
2018-09-27 18:36:33
556
原创 Hive 的DML操作
一、导入数据1、向表中加载数据(load)语法:hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)、load data:表示加载数据(2)、local:表示加载本地数据到...
2018-09-14 16:57:17
1261
原创 Hive 分区表和二级分区表的基本操作
Hive分区就是在HDFS上创建独立的文件夹,该文件夹下是该分区的所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择来查询所需要的指定分区,这样的查询效率会提高很多。1、引入分区表最终呈现的效果就是在HDFS上按照分区的目录存储文件:/user/hive/warehose/log/201801/01/dep...
2018-09-12 23:27:29
9339
4
原创 Hadoop 企业级优化
一、MapReduce跑得慢的原因MapReduce的瓶颈有一下两点:1、计算机硬件方面CPU、内存、网络、硬盘等。2、I/O方面1、数据倾斜的问题2、map和reduce设置的个数不合理3、spill溢写设置的不合理,导致溢写个数过多4、merge归并文件个数设置不合理,导致归并个数过多5、map运行的时间过长,导致reduce等待时间太久6、小文件太多...
2018-09-11 16:37:52
472
原创 Hadoop 的三种调度器FIFO、Capacity Scheduler、Fair Scheduler
目前Hadoop有三种比较流行的资源调度器:FIFO 、Capacity Scheduler、Fair Scheduler。目前hadoop2.7默认使用的是Capacity Scheduler容量调度器。一、FIFO(先入先出调度器)hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。比如排在最前面的job需要若干m...
2018-09-09 21:39:22
12692
1
转载 一文总结Linux的文件搜索命令,史上最清晰易懂
locate命令locate 文件名含义:在后台数据库中按文件名搜索,搜索速度很快。注意:(1)locate的搜索方式是在“/var/lib/mlocate”这个数据库中进行搜索的(不同的Linux可能数据库的名字不一样)。但是mlocate这个数据库不是实时更新的,它的更新频率是一天一更新。所以会发生用locate可能搜索不到已经存在的文件的现象。我们可以使用“updated
2017-09-15 11:30:56
458
1
转载 关于VMware时间不同步的解决方法
Vmware虚拟机的用户可能会出现这样的问题,用虚拟机下的系统时,其时间显示的是相应语言对应国家的时间,与所在地区不同步,这样会很不方便,那么该怎么修改才能使得时间同步呢?这里有三种解决方法,供大家参考。 问题: 在Windows操作系统下安装vmware虚拟机后,再安装Linux以后时间总是与真实计算机的不同步 解决方法: 方法1: 步骤1
2017-09-12 16:02:04
19067
转载 hadoop集群时间同步
测试环境: 192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:
2017-09-08 10:35:45
2500
原创 用linux命令分析文件(排序,统计)
有a.txt和b.txt两个文件,文件格式为(ip username)例如:a.txt:127.0.0.1 zhangsan127.0.0.2 lisi127.0.0.3 wangwu127.0.0.4 chenliub.txt:127.0.1.1 wangermazi127.0.0.2 lisi127.0.1.3 f
2017-08-22 12:33:48
777
原创 Hadoop学习(一)
一、Hadoop介绍 Hadoop由两部分组成,分别是HDFS和MapReduce。HDFS是分布式存储系统,MapReduce是并行计算框架。 二、HDFS介绍 1、主从机构 主节点,只有一个namenode 从节点,可以有很
2017-08-07 22:07:57
429
转载 Java进阶(三)多线程开发关键技术
原创文章,转载请务必将下面这段话置于文章开头处(保留超链接)。本文转发自技术世界,原文链接 http://www.jasongj.com/java/multi_thread/sleep和wait到底什么区别其实这个问题应该这么问——sleep和wait有什么相同点。因为这两个方法除了都能让当前线程暂停执行完,几乎没有其它相同点。wait方法是Object
2017-08-04 10:30:51
395
原创 Zookeeper的安装
一、ZooKeeper 概述 Zookeeper 是分布式协调服务,分布式程序可以基于Zookeeper来实现同步服务、配置服务和命名服务等。 ZooKeeper 是确保数据在其管理的服务器集群之间的数据的事务一致性。二、Zookeeper的安装 1、zookeeper集群节点数不能少于3
2017-08-02 22:42:57
316
原创 Hadoop1.x MapReduce 实现二次排序 实现WritableComparable接口
一、前言利用MapReduce来实现,首先按照第一列升序排列,当第一列相同时,第二列升序排列 3 3 3 2 3 1 2 2 2 1 1 1-------------------------------------预期结果 1 1 2 1 2 2 3 1 3 2
2017-08-02 17:23:48
551
原创 Hadoop1.x 的MapReduce 简单例子WordCount
一. 前言 之前笔记里记得案例今天看到了,所以拿出来分享。 **首先介绍一下案例需求,统计出hadoop上的一个hello目录下的文件不同单词的个数,并输出统计结果。**MapReduce 是一种分布式计算模型,主要分为Map和Reduce两部分,用户只需要实现map()和reduce()函数就可以,一般两个函数之间以key和value这种键值对传递参数二.代码import java.io.I
2017-08-02 15:40:00
518
1
原创 Centos7.2 JDK安装 + Tomcat安装 + 防火墙配置
一、环境和软件准备 搭建一个Web项目前,需要将其所需要环境搭建部署。 1、系统选择的是Centos7.2 64位的 2、JDK的版本是jdk-7u71-linux-x64.tar.gz 3、Tomcat的版本是nginx-1.7.6.tar.gz 4、防火墙是iptables二、JDK的安装 1、将JD
2017-07-27 13:03:03
954
原创 VirtualBox 虚拟机配置centos6.4 spark集群(1)--- 环境搭建以及所遇问题
一、前言二、所需软件 VirtualBox 5.1.22 操作系统 :centos6.4 CentOS-6.4-x86_64-minimal.iso 三、虚拟机的配置 1、虚拟机安装 (1)在VirtualBox中选择“新建”--->填写名称,“类型”选择Lin
2017-07-06 22:33:29
1119
原创 Centos 7 中MongoDB3.4.2 集群搭建
因为近期工作原因需要使用mongodb数据库,索性将搭建的全部过程分享出来。 一、环境准备 1、Centos7 2、mongodb3.4.2 3、三台机器IP分别是:192.168.1.100、192.168.1.101、192.168.1.102二、mongdb数据库的安装 如下操作是分别在三台机器进行1、首先分别在三台机器上下载好mo
2017-04-14 16:51:14
6652
1
hadoop-2.5.2.tar.gz
2018-02-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人