
hadoop
阿豪963
这个作者很懒,什么都没留下…
展开
-
第一章 CenterOS7下的hadoop集群安装
1 hadoop集群前安装1.1 centerOS安装jdk mkdir/usr/java cd /usr/java tar -zxvf jdk-8-linux-x64.tar.gz vi /etc/profile 追加内容 JAVA_HOME=/usr/java/jdk1.8.0_144 JRE_HOME=/usr/java/jdk1.8.0_144/j...原创 2018-05-04 12:57:45 · 1104 阅读 · 0 评论 -
top k
利用MapReduce求海量数据中最大的K个数package jtlyuan.csdn; import java.io.IOException; import org.apache.Hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; i...转载 2018-06-01 00:30:28 · 160 阅读 · 0 评论 -
数据倾斜
什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。 相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如:用Hive算数据的时候reduce阶段卡在99.99%用SparkStreaming做实时算法时候,一直会有e...转载 2018-06-01 13:36:03 · 307 阅读 · 0 评论 -
mapreduce join
一、概述对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我在实际开发过...转载 2018-06-01 13:45:00 · 656 阅读 · 0 评论 -
hive和hbase结合
摘要Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询使用1.从Hive中创建HBase表使用HQL语句创建一个指向HBase的Hive表CREATE TABLE hbase_table_1(key int, value string) //Hive中的表名hbase_table_1STORED BY 'org.apa...原创 2018-06-24 20:05:16 · 331 阅读 · 1 评论 -
maven创建hbase操作
1 pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/m...原创 2018-06-19 19:57:49 · 2628 阅读 · 0 评论 -
hbase架构
1 HBase的构成物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZooKeeper。其中Region server负责数据的读写服务。用户通过沟通Region server来实现对数据的访问。HBase HMaster负责Region的分配及数据库的创建和删除等操作。ZooKeeper作为HDFS的一部分,...翻译 2018-06-19 22:46:47 · 170 阅读 · 0 评论 -
HBase优化
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。Auto Flash通过调用HTable.setAutoFlushTo(false)方法可以将HTable写客户端自动flush关闭,这样可以批量写入数据到HBase,而不是有一条put就执行一次更新,只有当put填满客户端写缓存的时候,才会向HBase服务端发起写请求。默认情况下auto flush是开启的。Write ...翻译 2018-06-19 23:19:19 · 143 阅读 · 0 评论 -
HBase拆分合并
Split拆分说明:Split entire table or pass a region to split individual region. With the second parameter, you can specify an explicit split key for the region. Examples:split 'tableName'split 'names...翻译 2018-06-19 23:32:29 · 1392 阅读 · 0 评论 -
flume简介
一 flume简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理, 并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由A...翻译 2018-06-20 15:35:42 · 461 阅读 · 0 评论 -
分析项目
1、大数据集群环境的搭建CentOS 6.8、hadoop-2.7.3、hive-0.13.1zookeeper-3.4.10kafka_2.10-0.10.2.0、flume-ng-1.7.0日志采集流程、Spark 1.6.32、企业级大数据项目的架构搭建Java、配置管理组件、JDBC辅助组件(内置数据库连接池)、Domain与DAO模型scala:只适合用于编写一些比较纯粹的一些数据处理程...原创 2018-07-08 23:03:08 · 238 阅读 · 0 评论 -
flume案例
1 安装flume1.1 下载并解压flume(使用非root用户)解压后,将文件夹重名为 flume-1.8.01.2 配置/etc/profile环境变量FLUME_HOME=/home/hadoop/flume-1.8.0PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$FLUME_HOME/binexport PATH1.3 修改flume配置文件进入flu...原创 2018-06-20 16:26:01 · 208 阅读 · 0 评论 -
bigdata项目
1 项目技术点原创 2018-07-09 22:43:10 · 418 阅读 · 0 评论 -
ngix反向代理
一、代理服务器 1、什么是代理服务器 代理服务器,客户机在发送请求时,不会直接发送给目的主机,而是先发送给代理服务器,代理服务接受客户机请求之后,再向主机发出,并接收目的主机返回的数据,存放在代理服务器的硬盘中,再发送给客户机。 2、为什么要使用代理服务器 1)提高访问速度 由于目标主机返回的数据会存放在代理服务器的硬盘中,因此下一次客户再访问相同的站点数据时,会直接从代理服务器的硬盘中读取,起...原创 2018-07-10 00:08:47 · 243 阅读 · 0 评论 -
nginx访问日志
nginx访问日志查看nginx.conf文件vim /usr/local/nginx/conf/nginx.conf中间有一行是定义log的格式log_format combined_realip '$remote_addr $http_x_forwarded_for [$time_local]' ' $host "$request_uri" $status' ' "$http_...转载 2018-07-10 00:14:16 · 12656 阅读 · 1 评论 -
全排序
问题的提出正常情况下,Mapreduce的保障之一就是送到Reducer端的数据总是根据Reducer的输入键进行排序的,如果我们使用单个Reducer,排序就会直接了当,但是只是使用一个Reducer的情况少之又少,如果使用了多个Reducer,那么就只可能会保证每一个Reducer内的内容是会根据键进行排序的,而不会保证Reducder之间也是有序的,就会出现下面这种情况: reducer1:...转载 2018-06-01 00:28:00 · 343 阅读 · 0 评论 -
自定义flume导入hbase代码
1 拷贝hbase1.2.6下的lib目录的jar文件到flume1.8的lib目录下2 在eclipse编写解析日志文件的自定义代码2.1 pom.xml文件内容<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schema...原创 2018-06-21 22:37:01 · 777 阅读 · 0 评论 -
第二章 hdfs
1 hdfs基本概念 hdfs(hadoop distributed file system)是hadoop分布式文件系统的简称, hdfs是hadoop的文件系统,用于在网络上管理跨多个计算机上的数据集。2 hdfs设计原则1) 硬件失效硬件失效是常态而不是意外。检测错误、快速和自动恢复是HDFS的核心架构。2) 流式访问应用运行在HDFS需要允许流式访问它的数据集。这不是普通的应用程序运行在普...翻译 2018-05-04 13:24:59 · 179 阅读 · 0 评论 -
第一篇 Idea maven创建第一个scala
使用Idea创建scala程序比较方便,这里总结两种方法第一种 以maven项目创建scala程序并运行1 新建一个maven项目2 添加必要信息直至完成3 为scala创建目录4 发现scala目录为灰色,需要将新建的scala目录添加到项目modules中,选择file菜单->Project Structure...菜单,打开Project Structure窗口5 将scala目录添加...原创 2018-05-17 21:14:36 · 2451 阅读 · 0 评论 -
第二篇 类和对象
1 类、字段和方法类是对象的蓝图,一旦定义了类,就可以使用关键字new创建对象例如:class Student{}new Student类定义里,可以放置字段和方法,统称为成员。2 分号推断如果一行包含多条语句,分号必须有val age=8;println(age)3 Singleton对象scala不能定义静态成员,取而代之的是单例对象,使用object关键字代替了class关键字,当单列对象与...原创 2018-05-18 16:59:03 · 107 阅读 · 0 评论 -
第三篇 函数式对象
1 创建类对象 在类名之后的参数称为类参数,scala编译器收集参数构造主构造器;//如果类没有主体代码,不需要写花括号例1 类参数class Studentclass Teacher(sname:String)object map03 { def main(args: Array[String]): Unit = { var x1=new Student var x2=new ...原创 2018-05-18 17:22:47 · 156 阅读 · 0 评论 -
第一章 spark-2.2.0安装和部署
scala-2.11.7下载与安装Spark下载为了方便,我直接是进入到了/usr/local文件夹下面进行下载spark-2.2.0wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz1Spark安装之前的准备文件的解压与改名tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz1...原创 2018-05-19 19:48:15 · 397 阅读 · 0 评论 -
map连接
复制连接(Replication join)复制连接是map端的连接。复制连接得名于它的具体实现:连接中最小的数据集将会被复制到所有的map主机节点。复制连接有一个假设前提:在被连接的数据集中,有一个数据集足够小到可以缓存在内存中。如图4.5所示,MapReduce复制连接工作原理如下:使用分布式缓存(Districubted cache)将这个小数据集复制到所有运行map任务的节点。用各个map...翻译 2018-06-04 20:57:28 · 1104 阅读 · 0 评论 -
02-Hive连接JOIN用例详解
数据准备:创建数据-->创建表-->导入数据首先创建两个原始数据的文件,这两个文件分别有三列,第一列是id、第二列是名称、第三列是另外一个表的id。通过第二列可以明显的看到两个表做连接查询的结果:[xingoo@localhost tmp]$ cat aa.txt 1 a 32 b 43 c 1[xingoo@localhost tmp]$ cat bb.txt 1 xxx ...原创 2018-06-12 22:58:08 · 394 阅读 · 0 评论 -
03-Hive的数据倾斜
1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题3、主要表现任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完...转载 2018-06-12 23:10:00 · 156 阅读 · 0 评论 -
04-Hive 优化策略
一、Hadoop 框架计算特性1、数据量大不是问题,数据倾斜是个问题2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的3、sum,count,max,min 等 UDAF,不怕数据倾斜问题,hadoop 在 map 端的汇总合并优化,使 数据倾斜不成问题4、count...转载 2018-06-12 23:24:35 · 300 阅读 · 0 评论 -
05-Hive的连接3种连接方式
一、CLI连接二、HiveServer2/beeline1、修改 hadoop 集群的 hdfs-site.xml 配置文件2、修改 hadoop 集群的 core-site.xml 配置文件三、Web UI 一、CLI连接进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hiveSLF4J: Class path contains multiple SLF4J bi...转载 2018-06-12 23:37:29 · 2223 阅读 · 1 评论 -
06-hive面试题
一、求单月访问次数和总访问次数1、数据说明数据字段说明用户名,月份,访问次数数据格式A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03...转载 2018-06-12 23:51:39 · 1394 阅读 · 0 评论 -
flume将数据导入hbase
1 将hbase的lib目录下jar拷贝到flume的lib目录下;2 在hbase中创建存储数据的表hbase(main):002:0> create 'test_idoall_org','uid','name'3 创建flume配置文件 vi.confa1.sources = r1a1.sinks = k1a1.channels = c1 # Describe/configure the...翻译 2018-06-20 20:56:14 · 786 阅读 · 0 评论 -
hive与hbase整合
Hive整合HBase原理Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,通信原理如下图所示。Hive整合HBase后的使用场景:(一)通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表。(二)通过整合,让HBase支持JOIN、GROUP等S...转载 2018-06-20 22:29:40 · 1300 阅读 · 1 评论 -
HBase的简单过滤器
在hbase shell中查询数据,可以在hbase shell中直接使用过滤器:# hbase shell> scan 'testByCrq', FILTER=>"ValueFilter(=,'substring:111')"12如上命令所示,查询的是表名为testByCrq,过滤方式是通过value过滤,匹配出value含111的数据。 因在hbase shell中一些操作比较麻...转载 2018-06-21 12:42:58 · 173 阅读 · 0 评论 -
Hbase 过滤器API
filter ==> SQL 中的Wherefilter的执行流程:过滤器在客户端创建,然后通过RPC发送到服务器上,由服务器执行 基础过滤器: 比较器:Comparator Description LongComparatorAssumes the given value array is a Java Long number and uses Bytes.toLong() to conv...转载 2018-06-21 12:48:12 · 360 阅读 · 0 评论 -
flume+kafka
大数据平台每天会产生大量的日志,处理这些日志需要特定的日志系统。一般而言,这些系统需要具有以下特征:构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。为此建议将日志采集分析系统分为如下几个模块:数据采集模块:负责从各节点上实时采集数据,建议选用Flume-NG来实现...原创 2018-07-11 02:24:38 · 634 阅读 · 0 评论