
大数据
文章平均质量分 87
仰望星空的尘埃
https://github.com/a422478514
我未曾见过一个早起、勤奋、谨慎、诚实的人抱怨命运不好;良好的品格,优良的习惯,坚强的意志,是不会被假设所谓的命运击败的。
展开
-
kudu和hbase的区别和联系
前提hbase的物理模型是master和regionserver,regionserver存储的是region,region里边很有很多store,一个store对应一个列簇,一个store中有一个memstore和多个storefile,store的底层是hfile,hfile是hadoop的二进制文件,其中HFile和HLog是hbase两大文件存储格式,HFile用于存储数据,HLog保证...转载 2020-04-01 14:20:13 · 480 阅读 · 0 评论 -
Kudu
Apache Kudu是Hadoop生态圈用于OLAP场景,支持对实时更新的数据,做实时查询的分布式存储系统,同时支持点查(明细查询)和扫描(数据分析)。 Kudu Server使用C++实现,采用列式存储格式,存储结构化数据,使用针对顺序扫描优化的LSM存储架构,使用RAFT协议来保证高可用。能够提供实时高效的insert、update、delete和scan等操作。目前提供了C++、Java和...原创 2020-04-01 14:07:34 · 159 阅读 · 0 评论 -
简介Apache Kylin
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口和多维分析(OLAP)能力,能够在亚秒内查询巨大的HIVE表。原创 2020-04-01 14:06:40 · 181 阅读 · 0 评论 -
十五、HDFS架构设计
引言前提和设计目标硬件错误流式数据访问大规模数据集简单的一致性模型“移动计算比移动数据更划算”异构软硬件平台间的可移植性Namenode 和 Datanode文件系统的名字空间 (namespace)数据复制副本存放: 最最开始的一步副本选择安全模式文件系统元数据的持久化通讯协议健壮性磁盘数据错误,心跳检测和重新复制集群均衡...原创 2019-01-11 16:30:53 · 259 阅读 · 0 评论 -
十六、Hive常用命令
一、创建表创建新表hive> CREATE TABLE t_hive (a int, b int, c int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';创建表并从其他表导入数据hive> CREATE TABLE t_hive AS SELECT * FROM t_hive2 ;仅复制表结构不导数据hive&...原创 2019-01-11 16:43:59 · 233 阅读 · 0 评论 -
十七、HDFS命令手册
概述所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]Hadoop有一个选项解析框架用于解析一般的选项和运行类。命令选项 描述 --config confdir ...原创 2019-01-11 16:51:19 · 166 阅读 · 0 评论 -
十四、hadoop生态圈闲谈
hadoop生态圈技术大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系...原创 2019-01-11 17:13:54 · 306 阅读 · 0 评论 -
九、Scala中Join函数
Scala中的Join函数全解一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下: /** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`....原创 2019-01-09 15:46:21 · 10746 阅读 · 1 评论 -
十八、可视化任务调度系统airflow
最近工作需要,使用airflow搭建了公司的ETL系统,顺带在公司分享了一次airflow,整理成文,Enjoy!1. airflow 介绍1.1 airflow 是什么Airflow is a platform to programmatically author, schedule and monitor workflows.airflow 是一个编排、调度和监控workf...原创 2019-02-15 09:45:02 · 5295 阅读 · 0 评论 -
十九、深入分析 Parquet 列式存储格式
Parquet 是面向分析型业务的列式存储格式,由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目,最新的版本是 1.8.0。列式存储列式存储和行式存储相比有哪些优势呢?可以跳过不符合条件的数据,只读取需要的数据,降低 IO 数据量。 压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用...原创 2019-02-18 10:24:23 · 326 阅读 · 0 评论 -
二十、Spark 2.0系列之SparkSession详解
Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark2的难度也会大大降低。本文就SparkSession在Spark22.0中的功能和地位加以阐释。SparkSession的功能首先,我们从一个Spark应用案例入手:SparkSessionZip...原创 2019-02-18 10:25:36 · 12022 阅读 · 0 评论 -
谈谈RDD、DataFrame、Dataset的区别和各自的优势
在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势共性:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,...原创 2019-04-28 20:03:16 · 308 阅读 · 0 评论 -
七、Linux下Hive安装搭建
本文介绍Hive安装配置的整个过程,包括MySQL、Hive及Metastore的安装配置,并分析了Metastore三种配置方式的区别。网上有很多介绍Hive Metastore三种配置方式的文章,但是理解都不对,给读者造成了很多误导。本人详细阅读Apache和CDH官方文档中关于Hive Metastore的部分,并经过实践,终于填好各种坑,安装配置成功,遂记录下本文,供大家参考。1. 相...原创 2019-01-11 15:48:11 · 395 阅读 · 0 评论 -
十四、hadoop生态圈
hadoop生态圈闲谈【问】hadoop在生产环境下综合考虑的的数据块副本数多少【答】默认3个,一般也是用3个副本的比较多,如果有特殊需求的话,可以根据自己需求添加副本数。1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、...原创 2019-01-11 15:40:23 · 304 阅读 · 0 评论 -
三、Hadoop运行自带wordcount
1.首先确认你的hadoop启动了。master与slave启动方式相同,进入hadoop目录下的sbin目录,命令:$cd /home/hadoop/hadoop/sbin (根据个人安装的hadoop目录调整)启动hadoop:(1)$./start-dfs.sh (2)$./start-yarn.sh启动后的效果如图:master如图1,slave如图2图1 ...原创 2018-08-13 20:44:29 · 21506 阅读 · 3 评论 -
一、Hadoop搭建
一、环境选择1,服务器选择阿里云服务器:入门型(按量付费)操作系统:linux CentOS 6.8Cpu:1核内存:1G硬盘:40Gip:39.108.77.2502,配置选择JDK:1.8 (jdk-8u144-linux-x64.tar.gz)Hadoop:2.8.2 (hadoop-2.8.2.tar.gz)3,下载地址官网地址:JDK:http://...原创 2018-08-13 17:11:26 · 283 阅读 · 0 评论 -
八、Hbase搭建安装
HBase介绍、搭建、环境、安装部署hadoop培训课程:HBase介绍、搭建、环境、安装部署1、搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建...原创 2018-08-22 10:38:15 · 160 阅读 · 0 评论 -
七、Hive搭建安装
本文介绍在Mac上搭建Hive环境。建议首先配置好Hadoop,搭建与配置可以参考我之前的博文Mac Hadoop的安装与配置。当然你也可以选择使用Docker搭建环境,本文不作介绍。安装(如果是Linux请看Linux下安装Hive)对于MacOs,推荐使用HomeBrew安装hive,一步到位。$ brew install hive创建元数据库Hive默认用derby...原创 2018-08-19 18:48:00 · 471 阅读 · 0 评论 -
四、Spark安装与搭建
本文介绍安装mac单机版的spark,和spark 集群安装 分以下步骤安装scala 下载spark 压缩包并解压 修改spark的配置文件 配置环境变量 验证安装情况 安装Scalahttps://blog.youkuaiyun.com/u010285974/article/details/86253627下载spark压缩包并解压到官网下载spark的安装包(我用的是sp...原创 2018-08-19 18:39:06 · 589 阅读 · 0 评论 -
六、Spark-shell执行计算
本章节通过spark-shell进入我们的单机spark的终端进行一些简单的运算。 本节内容如下新建RDD 进行乘法操作 新建RDD 进行过滤操作 编写wordCount小例子 union的使用 groupByKey join reduce lookup首先安装和启动spark,此部分请参照mac 单机版 spark 安装启动后进入spark 的bin 目录运行spa...原创 2018-08-19 18:45:31 · 1869 阅读 · 0 评论 -
五、Spark上运行Scala版本helloworld
摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、Spark开发环境搭建及编写第一个scala程序、运行第一个Spark程序。1.Spark是什么Spark是一个快速且通用的集群计算平台2.Spark的特点1)Spark是快速的 Spark扩充了流行的Mapreduce计算模型...原创 2018-08-19 18:31:37 · 4280 阅读 · 0 评论 -
十、Mac安装Scala
安装scala需要如下步骤下载压缩包并解压配置环境变量检验安装结果1.进入官网下载压缩包官网传送门 http://www.scala-lang.org/download/下载后进入安装包所在目录进行解压操作(我下载的是:scala-2.11.8.tgz)$ tar -zxvf scala-2.11.8.tgz2.配置环境变量Mac修改 .bash_profile 文件,此...原创 2019-01-10 20:28:29 · 668 阅读 · 1 评论 -
十一、Spark核心概念RDD
RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, filter, groupBy等),通过这种转换操作,新的RDD则包含了如何从其他RDDs衍生所必需的信息,所以说RDDs之间是有依赖关系的。基于RDDs之间的...原创 2019-01-11 10:38:13 · 335 阅读 · 0 评论 -
十二、HBase-Shell简介
HBase 为用户提供了一个非常方便的使用方式, 我们称之为“HBase Shell”。HBase Shell 提供了大多数的 HBase 命令, 通过 HBase Shell 用户可以方便地创建、删除及修改表, 还可以向表中添加数据、列出表中的相关信息等。备注:写错 HBase Shell 命令时用键盘上的“Delete”进行删除,“Backspace”不起作用。在启动 HBase 之后,...原创 2019-01-11 15:01:11 · 310 阅读 · 0 评论 -
十三、Hbase常用命令
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count '表名称'删...原创 2019-01-11 15:20:49 · 236 阅读 · 0 评论 -
二、手写WordCount
一:问题介绍统计每一个单词在整个数据集中出现的总次数。 数据流程: 二:需要的jar包Hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.jarhadoop-2.4.1\share\hadoop\hdfs\lib\所有jar包hadoop-2.4.1\share\hadoop\common\hadoop-commo...原创 2018-08-13 20:50:23 · 552 阅读 · 1 评论