
大数据
开着小马奔腾哟
这个作者很懒,什么都没留下…
展开
-
单机HBase部署以及Java远程连接单机HBase
HBase单机环境搭建环境说明Red Hat 4.8.5-36JDK1.8HBase2.1.1部署过程1、下载 hbase-2.1.1-bin.tar.gz2、解压文件 tar -zxvf hbase-2.1.1-bin.tar.gz3、修改配置文件$HBASE_HOME/conf/hbase-site.xml 添加如下参数<!-- HBase存储数据的路径 默认在tm...原创 2019-03-12 20:10:33 · 3112 阅读 · 2 评论 -
Spark从入门到精通10 -- Spark Shuffle
Spark ShuffleShuffle简介Shuffle(数据混洗)是将一组无规则的数据转换为一组有规则的数据。Spark是一个分布式计算引擎,大多数的计算和数据转换过程是在多台计算机上执行的,当我们对RDD进行规约操作时,例如reduceByKey,或者当两个RDD之间是宽依赖的关系时,都会产生Shuffle。Shuffle实现方案Shuffle过程中会导致RDD进行重分区,在数...原创 2019-02-27 11:01:27 · 619 阅读 · 0 评论 -
Spark从入门到精通9 -- Spark Streaming
Spark StreamingSpark Streaming简介Spark Streaming是Spark为了处理实时流数据而设计的模型,允许基于批处理API进行对实时流数据进行处理。Spark Streaming使用离散化流(discretized stream)作为抽象表示,叫做DStream。类似于Spark中的RDD,用于存储实时流数据。DStream是将实时流数据分批整合成...原创 2019-02-14 11:17:51 · 545 阅读 · 0 评论 -
Spark从入门到精通8 -- Spark SQL
Spark SQLSpark SQL简介Spark SQL是用来操作结构化数据的程序包,支持多种数据源(Hive表、Parquet、JSON),可以基于Spark SQL进行数据的查询,为数据计算提供数据入口。Spark SQL提供一种特殊的RDD,叫做DataFrame,DataFrame是存放Row对象的RDD,每一个Row对象代表一行记录。Spark SQL使用Spark SQ...原创 2019-02-14 11:16:51 · 579 阅读 · 0 评论 -
Spark从入门到精通7 -- Spark编程进阶
Spark编程进阶累加器介绍与使用场景当我们在驱动器端声明一个变量时,如果我们在计算过程中需要对变量进行修改,这个时候不同的执行器拿到的当前变量的一个副本。类似于Java多线程场景下对共享变量的操作。所以累加器作为一个驱动器端声明的变量,能保证多个执行器端操作的时候是不会发生变量冲突的情况。就像是Java中的AtomicInteger一样。但是累加器具有容错性,当我们某个执行器节点宕机后,...原创 2019-02-14 11:15:57 · 308 阅读 · 0 评论 -
Spark从入门到精通6 -- Spark数据读取与保存
Spark数据读取与保存Spark支持多种数据源文件格式文件系统SparkSQL结构化数据数据库文件格式支持的文件格式有文本文件、SequenceFile、序列化对象、Hadoop输入输出格式、protocol buffer、压缩文件等。介绍几种常见的文件格式api:文本文件1、读取文本文件文本文件输入的每一行作为RDD的一个元素,或者将一个完整的文件已文件名-文件内容键值...原创 2019-02-14 11:14:35 · 423 阅读 · 0 评论 -
Spark从入门到精通5 -- Spark运行架构及流程
Spark运行架构及流程Spark运行架构架构图基本概念Application:用户编写的Spark应用程序,一个main方法。Driver:程序中执行main方法的进程,创建SparkContext为Spark应用程序提供运行环境,负责与ClusterManager的通信,进行资源申请、任务的分配和监控等,当Executor部分运行完毕后,Driver同时负责将SparkConte...原创 2019-02-14 11:13:29 · 317 阅读 · 0 评论 -
Spark从入门到精通4 -- RDD编程
RDD编程RDD是什么弹性分布式数据集RDD是Spark中不可变的分布式对象集合,每个RDD被分为多个分区,分区运行在集群不同节点上。我们可以通过Java、Scala、Python语言操作RDD,进行数据的处理。RDD操作类型转化操作(transformation)转化操作指将一个RDD转换成另一个RDD,就像我们将List转换成Map一样。行动操作(action)行动操作指...原创 2019-02-14 11:11:49 · 498 阅读 · 0 评论 -
Spark从入门到精通3 -- Spark简介
SparkSpark简介Spark是一个用来实现快速且通用的集群计算平台Spark组件示意图Spark SQLSpark CoreSpark StreamingMLlibGraphX独立调度器YARNMesosSpark CoreSpark Core是Spark的核心计算引擎,提供了任务调度、内存管理、错误恢复、与存储系统交互等模块。其中的弹性分布式数据集(RDD),是计算时的...原创 2019-02-14 11:10:18 · 1755 阅读 · 0 评论 -
Spark从入门到精通2 -- Scala基础语法
Scala数据类型Unit:与java中void表示同一含义。//main方法声明def main(args: Array[String]): Unit = {}Any:所有其他类的超类,是抽象类AnyRef:所有引用类的基类,与java中Object表示同一个意思Nothing:所有类的子类变量声明var:声明可以变化的变量val:声明不能变化的常量...原创 2019-02-14 11:03:34 · 1167 阅读 · 0 评论 -
Spark从入门到精通1 -- 大数据生态组件
大数据生态组件大数据生态关系图Flume日志收集Storm流式计算SparkStreamingScala编程语言JavaPythonMahout机器学习库MLlibzookeeperHadoop家族HbaseHueSqoopOozie大数据生态大数据通用处理平台分布式数据存储资源调度数据分析/数据仓库消息队列HadoopSparkHDFSYarnMesosHiveSparkSQLPigKy...原创 2019-02-14 11:00:45 · 521 阅读 · 0 评论 -
Kafka单机部署
Kafka单机部署环境说明Red Hat 4.8.5-36JDK1.8Zookeeper-3.4.8kafka_2.11-0.10.1.1Zookeeper单机版部署部署步骤1、下载zookeeper-3.4.8.tar.gz2、解压tar -zxvf zookeeper-3.4.8.tar.gz3、修改配置文件,将$ZOOKEEPER_HOME/conf/zoo_samp...原创 2019-03-29 14:43:51 · 4668 阅读 · 1 评论