大数据容器-优快云博客

原创 kafka的API

kafka的API的简单应用生产者package com.chang;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerRecor...

2019-07-02 21:30:34 325

原创 Mapreduce和Spark的对比

MR和Spark的对比针对这两款计算框架从下边几个方面进行对比1.通用性1.1Spark一栈式，主要说的是，Spark不仅仅可以进行离线计算(SparkCore)，同时还可以进行流式处理(SparkStreaming)、交互式计算(SparkShell,SparkSQL，StructStreaming，图计算(SparkGraphx),机器学习(SparkMLLib),也就是说我们可以在...

2019-06-25 21:31:48 2454

原创 Spark的数据倾斜

Spark的数据倾斜1.数据倾斜的概念(这个不用说了都懂)略2.发生数据倾斜的现象个别的task运行时间明显长于其他的task发生OOM异常3.发生数据倾斜的原因spark只要是发生数据倾斜必然经历了shuffle,也就是shuffle是数据倾斜的必要条件4.发生数据倾斜之后的解决方案1.提高并行度程序运行缓慢，第一反应大多是资源分配不足，并行度不够。提高并行度是我们做数据...

2019-06-25 20:38:23 328

原创 Spark程序运行方式

Spark程序运行方式本文主要介绍Spark上传集群运行的过程及shell脚本的编写脚本文件编写参数介绍在linux环境下 spark-submit指令打印如下[hadoop@hadoop01 MyShell]$ spark-submitUsage: spark-submit [options] <app jar | python file> [app arguments]...

2019-06-19 23:20:13 773

原创 spark的wordcount之scala写法

读取内存的数据package com.aura.wordcountimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 使用scala实现wordCount,读取内存中的List集合中的数据进行统计 */object _01wordCount { def...

2019-06-19 22:27:32 535

原创 Spark的wordCount之java的写法

Spark-WordCount 之java写法1.原始写法package com.aura.spark.day01;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac...

2019-06-18 18:50:15 313

概念RPC（Remote Procedure Call）—远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务器模式。请求程序就是一个客户机，而服...

2019-06-15 17:45:18 845

原创 Scala的基础算子的练习

对scala的数组和集合的一些常用的算子进行总结以代码的形式进行一些练习package com.aura.testobject ScalaFunction { def main(args: Array[String]): Unit = { //常用的算子的练习 map reduce sort count filter var array = Array[Int](...

2019-06-12 21:25:37 546

原创 shell脚本的编写

简单的shell脚本的编写1.helloworld脚本的编写#!/bin/bash //这是sh指令的路径a="hello world!" //定义一个变量并赋值"hello world"num=2 //定义一个变量赋值2echo "a is:$a num is :$num"//$符号加上变量是取变量的值的意思运行结果: a is:hello world! nu...

2019-06-09 17:12:18 406

原创 Azkaban的使用

Azkaban1.Azkaban是什么zkaban是一套简单的任务调度服务，整体包括三部分webserver、dbserver、executorserver。Azkaban是linkin的开源项目，开发语言为Java。Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间...

2019-06-09 09:57:31 843

原创 Sqoop的使用

sqoop1.什么是sqoopsqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。sqoop的本质:将sqoop的迁入迁出的命令转换为mapreduce任务迁入： mysql —》 hdfs|hive|hbase从mysql读取数据写出到hdfs上Mapper 读取数据从数据库读取 InputFormat–>DBInputF...

2019-06-08 02:16:50 455

原创 hbase的批量数据导入-bulkload技术应用

Hbase的批量的数据导入Hbase的数据导入有如下的几种方式使用java API的方式java API中的put操作可以将数据导入到hbase中其中包含单条和批量导入两种方式@Test public void test5() throws IOException { // 获取Hbase配置文件的对象 // HBaseConfiguration conf=(HBas...

2019-06-04 13:27:00 4027

原创 Flume相关知识的总结

1.概述1.1什么是flume1、 Apache Flume 是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统，和Sqoop 同属于数据采集系统组件，但是 Sqoop 用来采集关系型数据库数据，而 Flume 用来采集流动型数据。2、 Flume 名字来源于原始的近乎实时的日志数据采集工具，现在被广泛用于任何流事件数据的采集，它支持从很多数据源聚合数据到 HDFS。3、一般的...

2019-06-02 22:39:12 436

原创 hbase的过滤器

hbase的过滤器1.概述hbase的API中可以进行查询,但是这种查询一般只能单行或者是指定行键的范围的查询,在正常需要精细查询的场合有诸多的不便,所以系统内置了很多的过滤器2.过滤器汇总过滤器分为两大类:比较过滤器和专用过滤器3.比较过滤器行键过滤器 RowFilterFilter filter1 = new RowFilter(CompareOp.LESS_OR_EQUAL...

2019-06-02 16:17:04 4345

原创 Mysql和hbase的数据互导

Mysql和hbase的数据互导1.将mysql中的表导入到hbase中主机hadoop01 的mysql数据库中的的 test数据库下的student表中的数据如下:±-----±-------±-----------±------+| s_id | s_name | s_birth | s_sex |±-----±-------±-----------±------+| 0...

2019-06-02 11:54:32 557

原创 hbase和Hive的整合

hbase和Hive的整合1.原理Hive 与 HBase 利用两者本身对外的 API 来实现整合，主要是靠 HBaseStorageHandler 进行通信，利用 HBaseStorageHandler，Hive 可以获取到 Hive 表对应的 HBase 表名，列簇以及列，InputFormat 和 OutputFormat 类，创建和删除 HBase 表等。Hive 访问 HBase ...

2019-06-02 10:36:32 1068

原创 Hbase的Api操作

public class TestHbaseConnect { static HBaseAdmin admin = null; static Connection conn = null; public static void create_namespace() throws IOException { // Builder ns = NamespaceDescriptor.cr...

2019-06-01 23:07:43 563 1

原创 Hbase的shell操作

DDL创建namespacecreate_namespace “namespace的名字”创建表help “create”hbase> create ‘ns1:t1’, {NAME => ‘f1’, VERSIONS => 5}hbase> create ‘t1’, {NAME => ‘f1’}, {NAME => ‘f2’}, {NAME =&gt...

2019-06-01 22:19:03 1117

原创 Hbase和Hdfs的相互通讯/Hbase的mapreduce操作

1、HBase 结合 MapReduce为什么需要用 mapreduce 去访问 hbase 的数据？——加快分析速度和扩展分析能力Mapreduce 访问 hbase 数据作分析一定是在离线分析的场景下应用1.1将hbase数据转到hdfs中需求:将hbase中的数据导出到hdfs中,下边结合代码进行解释/**************************************...

2019-06-01 20:09:50 1368

原创 java IO流总结

IO流IO流的整体内容:1.java.io.File类的使用2.IO原理及流的分类3.文件流: FileInputStream / FileOutputStream / FileReader / FileWriter4.缓冲流:BufferedInputStream / BufferedOutputStream / BufferedReader / BufferedWrite...

2019-06-01 11:57:25 429

原创 JAVA常见的几种排序的实现和解析

常见的排序的特点比较相关概念稳定：如果a原本在b前面，而a=b，排序之后a仍然在b的前面。不稳定：如果a原本在b的前面，而a=b，排序之后 a 可能会出现在 b 的后面。时间复杂度：对排序数据的总的操作次数。反映当n变化时，操作次数呈现什么规律。空间复杂度：是指算法在计算机内执行时所需存储空间的度量，它也是数据规模n的函数。冒泡排序算法描述:比较...

2019-06-01 11:34:56 699

原创 Hbase原理解析

1.系统架构上图是hbase0.9之前的版本的内部系统的构架图1.1部分功能介绍:Hase中的两张表:.meta.：记录了用户表的 Region 信息，.META.可以有多个regoin,怎么理解呢?用户的表的信息是以region的形式存储在各个regionserver节点上的,那么哪一个节点放的是哪个region的信息呢?这个.meta表就是储存这个信息的.-root-：记录...

2019-06-01 11:17:15 286

原创 kafka和flume整合

kafka和flume的整合kafka和flume的整合应用非常的广泛Flume是一个数据采集搬运工。配置数据源，可以源源不断的将数据采集过来，flume不会持久性的保存数据，但是会做一个临时性的缓存，最后还是需要sink将数据落地到外部的存储系统，比如hdfs、kafka。实际上使用hdfs和kafka走的是两条线，flume和hdfs的整合一般都是做离线的批处理，而flume和kafka...

2019-07-02 22:40:09 2258

大数据容器