大数据_Yore Yuen的博客-优快云博客

大数据

关注

文章平均质量分 94

关注数：文章数：56 文章阅读量：340924 文章收藏量：1172

作者: Yore Yuen

会持续分享大数据等知识，一起交流，共同进步

展开

专栏收录文章

Apache Kudu 从源码开始构建并部署 Kudu 集群

主要介绍了Apache Kudu 最新版 1.15.0 版本的编译及部署。为了对整个部署有一个更加明确的过程，前面又对 Kudu 进行了简要的介绍。编译中需要注意的事项，部署中的配置等，以及部署完成后，对集群的读写进行测试校验。最后是整理的一个常用命令。

原创 2022-04-10 23:03:29 · 4223 阅读 · 0 评论
HBase集群升级, 通过HBase rpm 或 tar包形式(以HDP 为例，包含升级及HBCK2 介绍和使用)

HBase 作为 HBase 生态圈重要的组建，在海量数据分析中占有重要的位置。随着 HBase 版本迭代，生产环境的 HBase 难免会面对升级的需求，升级的原因，要么是需要用到新版本的特性，要么是当前的版本存在不得不升级的缺陷，等。本文以 HDP 环境为例，详细介绍了 HBase 的编译及 rpm 包的生产过程，来对生产环境中的 HBase 进行升级。其中介绍 RPM 的基础知识，同时也介绍了两种生成 RPM 包的方式

原创 2022-04-10 23:00:06 · 4049 阅读 · 1 评论
手动安装Hive 3(以 hdp 为例，适用于 CentOS 8)

本文详细讲述了 Hive 3 的安装过程（包括 Hadoop、ZooKeeper、Tez、Hive），使用 Tez 引擎，基于 HDP 版展开，使用于 CentOS7 和 CentOS8 系统，同时针对于生产环境重点介绍了重要配置项的推荐值。最后有给出了方便使用的测试，以及 Hive SQL 的小实例。

原创 2021-10-07 06:40:46 · 2180 阅读 · 0 评论
In Search of an Understandable Consensus Algorithm(寻找可理解的共识算法)

Raft 是一种用于管理复制日志的共识算法，它产生的结果等价于(multi-)Paxos，与 Paxos 一样高效但它的结构与Paxos不同；这使得 Raft 比 Paxos 更易于理解，也为构建实际系统提供了更好的基础。为了增强可理解性，Raft 将共识的关键要素（例如 leader 选举、日志复制和安全性）分离，并强制执行更强的一致性以减少必须考虑的状态数量。用户研究的结果表明 Raft 比 Paxos 更容易让学生学习。Raft 还包括一种用于更改集群成员的新机制，该机制使用重叠多数票（overla

翻译 2021-09-21 20:13:56 · 3032 阅读 · 0 评论
一个大数据环境下表结构统一导出的工具

本文介绍了一个可以统一导出大数据环境中的多种数据库的表，详细介绍了打包和使用，包括导出 Phoenix、HBase、Hive、Impala、Kudu、ClickHouse、MySQL 的 DDL 的使用示例。

原创 2021-09-21 20:10:10 · 1366 阅读 · 0 评论
Apache Doris 的一场编译之旅

本文主要针对 Apache Doris 的编译进行了详细介绍，包括了通过 Docker 开发环境和直接编译两种方式，其中直接编译部分包括编译前对环境的要求，及重要编译环境的安装设置，以及编译过程中出现的问题给出了解决方法供参考，最后为了方便大家编译，又提供了下载连接

原创 2021-02-05 17:24:18 · 2636 阅读 · 5 评论
HDP 之 Timeline Service 2.0

本文树妖介绍了 HDP 之上的 Timeline Service 2.0。包含体系结构、安装、System Service模式、ats-hbase 的生命周期管理、ats-hbase清除、发布 Application-Specific 数据、Timeline Service 2.0 的 REST API 等内容

翻译 2021-01-17 06:06:15 · 4553 阅读 · 2 评论
DataX Transformer从入口到加载的源码分析及UDF扩展与使用

本文重点介绍了阿里的开源异构数据离线同步工具 DataX中的 Transformer 组件的源码分析，及自定义扩展和使用，其中为了更好的使用 Transformer UDF 又对这部分的源码从入口到加载的整个过程进行分析。本文以解密为示例，详细介绍了 DataX Transformer 中的 UDF 的使用和自定义扩展。

原创 2020-05-20 22:00:04 · 4036 阅读 · 1 评论
The Pathologies of Big Data（大数据病理）

本文详细描述了大数据的产生原因，为了找到大数据产生的原因，论文前部分通过一份伪数据分析了传统情况下处理数据出现的问题，接着有分析了计算机的硬件，通过磁盘、SSD、内存的顺序读写和随机读写的对比，找到了处理解决大数据问题的规则，接着这个规则对面对的问题给出了解决方法，最终为大数据下定了一个定义。

翻译 2020-10-31 10:04:38 · 2118 阅读 · 0 评论
Flink Streaming (DataStream API) Event Time

本文主要介绍了Flink DataStream 事件时间（Event Time），其中包含水印（Watermarks）生成、水印策略、水印使用与编写、Kafka 连接器与水印、内置水印生成器等知识点。

翻译 2020-10-20 22:25:36 · 423 阅读 · 0 评论
R + RStudio(Server) + Spark/Hive 处理数据集

本文重点介绍了R环境的配置、RStudio Server 的安装，及中间出现的问题的解决。有详细介绍了使用 RStudio 如何以 local和 cluster 两种方式连接 Spark。最后使用我们安装集成的环境运行实现一个 WordCount & TOPN 的功能，快速熟悉体验 RStudio + Spark 处理数据集。最后以`了获取每个店铺排名前3的顾客`演示了 R 连接 Hive 对数据进行处理的。

原创 2020-08-20 18:34:00 · 1570 阅读 · 0 评论
Apache Hive+Kerberos安装配置及 Kettle(Pentaho)访问带 Kerberos 认证的 Hive的集成

本文重点介绍了客户端如何访问带有 Kerberos 认证的 Hive，其中客户端工具以 Kettle 和 DBeaver 为例。为了详细介绍整个过程，本文又介绍了如何基于 Apache 版本的 Hadoop 和 Hive 搭建带有 Kerberos 认证的大数据集群。Kerberos 客户端环境重点以 Windows 为例，因此也介绍了在 Windows 系统下如何安装和使用 Kerberos。最后经过修改 DBeaver 和 Kettle 启动脚本，从而成功访问带有 Kerberos 认证的 Hive

原创 2020-07-07 19:10:05 · 7259 阅读 · 13 评论
基于 Docker 的几种常用 CentOS7 镜像

本文介绍了 Docker 的安装及使用，利用 Docker 构建几个开发测试中常用的 CentOS 镜像环境：基础纯净版、大数据开发环境版、带数据库（目前是MySQL）版。中间又介绍了镜像的制作及如何上传到案例云镜像仓库，方便大家和自己在使用环境时快速拉取和下载

原创 2020-07-07 19:01:17 · 31936 阅读 · 5 评论
DataX HdfsReader 源码分析，及空文件 Bug修复和路径正则功能增强

本文主要在源码层面介绍了 DataX hdfsreader 模块，针对实际生产环境中出现的两个问题，一个是当用普通方式在 json 中指定 path 时，改文件夹下存在空文件时异常；以及当使用正则方式指定 path 时当前仅支持单字符和多字符，而直接使用字符集或者范围时会报错。针对这两个 Bug 在源码层面上进行了修复。

原创 2020-05-22 21:33:23 · 3813 阅读 · 3 评论
aarch64架构（ARMv8）系统环境下编译 Ambari

本文主要介绍了在 aarch64架构系统（ARM v8）下的 Ambari和 HDP的移植，重点对 Ambari 的编译及中间出现的问题的解决方法，并提供了最终的华为官方的镜像资源包的下载连接。

原创 2020-05-20 19:02:28 · 9342 阅读 · 22 评论
LDAP及CDH中服务的权限认证

主要对 LDAP 进行了介绍，重点选择 OpenLDAP进行了说明，重点是对 OpenLDAP的安装与配置进行了详细的说明。最后再将 LDAP 与 CDH 环境集成（主要以 Hive、Impala、Hue为例）。开启了LDAP 后对服务访问就需要加上用户认证，之后重点介绍了Hive、Impala的 JDBC、Beeline、脚本形式的使用，重点关注 Impala-shell 如何脚本化执行 sql 文件，最后重点注意在 Spring Boot 中访问 Impala时的几个注意点。

原创 2020-04-19 11:22:58 · 5513 阅读 · 0 评论
Apache DolphinScheduler集群升级/安装(1.2.1 & 1.3.0)

主要对 Apache DolphinScheduler最近的几个版本进行了说明，方便大家选择需要的版本进行安装。同时有重点介绍了最新版本 Apache DolphinScheduler 1.2.1的集群方式的部署，包括全新方式的安装方式，和在旧版本 1.1.0 上的升级，以及中间需要注意的几个点。最后又更新了 DS 1.3.0 的升级安装。

原创 2020-03-10 05:19:35 · 4188 阅读 · 4 评论
Beeline 的进阶使用

本文对Beeline做了较为详细的介绍，以及Beeline命令的参数和输出格式。接下来有分别介绍了使用 Beeline 连接本地或远程连接 Hive 、Impala 和 MySQL 的方式和命令。其中涉及到sql 语句的执行、sql 脚本的执行、交互式命令行的使用等，中间又介绍了在脚本化或者批量运行脚本时的后台脚本执行的方式，每一种方式对参数都有详细的说明，并且配有示例。

原创 2020-03-04 21:57:14 · 6987 阅读 · 2 评论
HDFS 文件和 Hive 权限问题

本文详细讲解了Linux的文件权限问题，以及重点介绍了 HDFS 的文件权限问题和 Hive的权限问题。

原创 2019-12-14 16:55:34 · 5903 阅读 · 1 评论
ClickHouse 数据的更新（Mutation）

本文着重讲解了ClickHouse关于UPDATE数据时的一些问题，由一个需求引出，通过TPC-DS的数据集演示这种场景，接着通过 UPDATE、INSERT、VIEW方式尝试实现，期间会和MySQL对比，最终通过 INSERT实现这个需求。最后对比了和MySQL实现上的区别，并做了一个小节。

原创 2019-11-21 14:25:19 · 23580 阅读 · 1 评论
ClickHouse介绍及安装(含集群方式)和使用

本文比较详细的介绍了 ClickHouse，包括其名字的来由、使用场景、不使用场景、特点，为了后面的部署和使用有重点介绍了 ClickHouse 的架构。当然核心的 ClickHouse 的引擎也对其做了介绍，数据类型。接着详细介绍了ClickHouse 的部署，包括集群方式部署，分布式表的使用，通过几个示例的使用让大家对 ClickHouse 有一个整体完整的认识。

原创 2019-11-15 20:06:41 · 11951 阅读 · 12 评论
工作流任务调度系统：Apache DolphinScheduler

Apache DolphinScheduler（目前处在孵化阶段，原名为EasyScheduler）是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，其致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。本文对DolphinScheduler做了简要的概述，并详细讲解了其安装，通过简单的例子快速开始并使用。最重要的是Worker分组和数据源的添加，以及与Azkaban的对比。

原创 2019-11-02 14:59:51 · 73442 阅读 · 62 评论
Spark 中数据转换及DataFrame数据的行转列

本文主要讲述了如何使用Spark将行数据转换为列数据。Spark中DataFrame的数据可能是一个行形式的数据，我们可以通过 pivot 算子将其转换为列形式的数据，处理后的数据类型依然为DataFrame，后续我们可以将其注册为临时视图对其做下一步的处理，最终将满足需求的数据按照给定的格式输出。

原创 2019-10-12 15:54:09 · 5812 阅读 · 0 评论
大数据环境中的系统磁盘的常见问题

本文主要针对CentOS7系统挂载点空间不够的情况下，如何对其进行扩容。将新添加的磁盘的容量通过创建多个主分区，然后添加的对应的卷组，进而扩展逻辑分区大小，从而解决空间使用率过高的警报问题。

原创 2019-09-20 23:33:18 · 2424 阅读 · 0 评论
Hive中的自定义分隔符(包含Hadoop和Hive详细安装)

导出到 HDFS 或者本地的数据文件，需要直接导入 Hive 时，有时包含特殊字符，按照给定的字段单字符分隔符或者默认换行分隔符，插入到 Hive 的数据可能不是我们预期的，此时需要我们自定义 Hive 的分隔符。同时Hive默认只支持单字符，如果需要支持多字符作为分隔符，可以按照如下方式重写输入格式化类来自定义分割符，也可以进行一些设置，并在建表时声明出来分割方式。下面会分别介绍这两种方式。在介绍之前先准备环境，介绍一下Hadoop和Hive的安装。

原创 2019-04-04 15:34:34 · 3767 阅读 · 5 评论
The Part-Time Parliament

本文主要翻译自1998年Lamport发表的论文The Part-Time Parliament，这篇论文其实是作者早在8年前提出了，也就是分布式系统中的数据一致性的一种全新的算法—Paxos算法。非常值得阅读的一篇论文

翻译 2019-09-23 13:50:09 · 977 阅读 · 0 评论
Apache Kylin的安装和使用

本文主要快速概要介绍了Apache Kylin是什么，Kylin的特点、应用场景、支持的大表数据量、性能、维度和度量、事实表和维表、Kylin常见的几种部署方式，硬件要求、软件要求。最后重点介绍了Kylin的安装和使用。

原创 2019-10-07 07:20:27 · 3669 阅读 · 0 评论
Flink China Meetup 资料整理

Apache Flink ChinaApache Flink China最新发布的活动的大家可以在活动行，这个还有微信小程序，然后在上面搜"Apache Flink Meetup"，微信公众号可以关注 “Ververica”。下面整理并分享一下 Apache Flink China Meetup 活动的的资料，更多历史资料可以关注其官方钉钉群。活动书刊书刊名期数...

原创 2019-06-30 00:37:44 · 939 阅读 · 10 评论
CarbonData部署和使用

本文主要介绍了华为开源的一个新型的大数据列式存储格式CarbonData。简要描述了CarbonData的特性。有介绍了CarbonData的安装以及和Spark的集成，最后在spark-shell中通过编程执行SQL，测试了CREATE、LOAD、SELECT、INSERT、UPDATE、DELETE

原创 2019-08-30 18:35:10 · 5075 阅读 · 5 评论
DataX离线数据同步

本文主要介绍了常用的数据同步方案和使用的工具或平台，重点介绍了DataX，介绍了DataX的诸多便利之处，以及架构和DataX的调度流程。然后又介绍了DataX的各个数据源之间的离线数据同步，包括ODPS到HDFS、HDFS到HDFS、MongoDB到HDFS，以及CDH版本Impala支持的文件格式和DataX支持的格式差别，最后是MongoDB同步时带密码认证失败时的临时解决方案。最后针对于带有 Kerberos 认证的域外数据同步，讲解了配置及注意点。

原创 2019-08-26 19:15:07 · 2604 阅读 · 0 评论
CDH之JDK 版本升级(Open JDK1.8)和cdh升级

本文主要接受了CDH 中 JDK 的升级，主要以Open JDK 为例。常见的 JDK 有 Oracle JDK、和 Open JDK，而常用到的 Open JDK有 Linux yum 原版的 Open JDK、Zulu JDK、GraalVM CE JDK。之后又介绍 CDH 的升级，以cdh 6.2.0 为例，升级到 6.3.1 ，这种方式也适用于行进的其它版本。

原创 2019-06-12 16:52:13 · 4305 阅读 · 1 评论
Apache Griffin 5.0 编译安装和使用(包含依赖无法下载的问题解决)

前言安装 Apache griffin 最新版时，GitHub的 release 是一个源码包，需要下载下来后编译进行安装和配置，问题是编译的时候有些依赖在仓库中根本下载不到，导致编译失败，可以按照如下方法进行编译。1. 编译前准备环境中安装好如下插件GitMaven2. 下载源码访问GitHub，搜索 griffin ，第一个 apache/griffin 就是这个项目，可以...

原创 2019-05-27 17:14:35 · 8276 阅读 · 69 评论
大数据的分布式SQL查询引擎 -- Presto的详细使用

本文主要介绍了Presto ，具体介绍了Presto的概述、概念（包括服务进程、数据源、查询执行模型）、整体架构、详细的集群安装方式（服务端安装配置、客户端）、Web客户端工具yanagishima的安装和使用。Presto的使用（MySQL、Hive、Kudu、Kafka等，还有JDBC、Kafka实时数据的获取和使用）。它是一个在 Facebook 主持下运营的开源项目。Presto是一种旨在使用分布式查询有效查询大量数据的工具，Presto是专门为大数据实时查询计算呢而设计和开发的产品。

原创 2019-05-19 23:33:15 · 3572 阅读 · 0 评论
Structured Streaming Programming Guide（基于Spark 2.4.0官方文档）

Spark 2.4.0官方文档 Structured Streaming Programming Guide 结构化流中文翻译

翻译 2019-04-09 15:00:27 · 977 阅读 · 0 评论
Flink Streaming (DataStream API) Operators (flink 1.7 文档)

Application Development /Streaming (DataStream API)/ OperatorsOperators算子将一个或多个 DataStreams 转换为新的 DataStream。程序能将多个转换结合成复杂的数据流拓扑。本部分介绍了基本的数据转换操作，应用这些内容后的有效物理分区以及对 Flink operator chaining 的...

翻译 2019-04-04 13:46:14 · 360 阅读 · 0 评论
基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

Spark中的Spark Streaming可以用于实时流项目的开发，实时流项目的数据源除了可以来源于日志、文件、网络端口等，常常也有这种需求，那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql，然后再对查询到的数据进行处理也能得到预期的结果，但是Mysql往往还有其他业务也在使用，这些业务往往比较重要，通过JDBC方式频繁查询会对My...

原创 2019-03-19 15:29:26 · 5411 阅读 · 14 评论
一道小问题了解Scala和Java的正则

问题：比如现在有一个字符串"[] [1] [abc123]",用正则匹配中括号中有值的字符串。这类问题在实际项目中可能会经常遇到，我们获取到的数据可能是用某些特定的符号进行分割，比如上面字符串使用的一个空格来分割的(比如其它的一些空字符)，然后获得某些信息又由特定的字符包裹着，比如上面的是用中括号包裹(也可能是其它的，比如括号，大括号等等)。一、正则表达式匹配首先看Java代码怎...

原创 2019-01-24 00:47:47 · 339 阅读 · 0 评论
Beam技术

一、简介在大数据处理中，流计算技术包括Storm、Spark Streaming和Flink，实际应用中还包括Storm Trident、Samura以及Google MillWhell和亚马逊的Kinesis等技术。离线处理基本上都基于Hadoop和Hive，那么实时流计算技术能否像离线数据处理一样出现Hadoop和Hive这种事实上的技术标准呢？Google给出的答案是：Beam。Ap...

原创 2018-10-31 13:17:50 · 2946 阅读 · 0 评论
Hive中的数据迁移--迁移多库数据以及实际遇到的问题解决

Hive的数据迁移其实就是对Hive的数据进行导入导出的操作。如果数据表不是很多，我们可以直接使用Hive SQL来处理，一张一张表的导出，然后在进行导入。对Hive的数据进行操作，常用的是登陆Hive客户端命令，常用的方式一般有两种，①hive，直接进入；②通过Beeline，在shell中输入beeline，然后连接我们的Hive，输入beeline> !connection ...

原创 2018-09-04 21:26:38 · 13377 阅读 · 4 评论
Spark 2.1.2 Streaming + Kafka 1.1.0 -- 在IDEA中通过Maven创建Spark项目

一、开发环境中需要安装和配置如下安装JDK，配置JDK环境变量(jdk1.8) 安装Scala，配置JDK环境变量(scala2.11.8) 最好安装一个Maven,虽然Idea已经集成自带的有Maven 测试环境中已经安装有Zookeeper集群，Kafka需要用到（3.4.5）测试环境中已经安装有Kafka集群（1.1.0）测试环境中已经安装有Spark集群（2.1.2...

原创 2018-07-22 06:27:22 · 3536 阅读 · 0 评论

大数据

作者: Yore Yuen

Apache Kudu 从源码开始构建并部署 Kudu 集群

HBase集群升级, 通过HBase rpm 或 tar包形式(以HDP 为例，包含 升级及HBCK2 介绍和使用)

手动安装Hive 3(以 hdp 为例，适用于 CentOS 8)

In Search of an Understandable Consensus Algorithm(寻找可理解的共识算法)

一个大数据环境下表结构统一导出的工具

Apache Doris 的一场编译之旅

HDP 之 Timeline Service 2.0

DataX Transformer从入口到加载的源码分析及UDF扩展与使用

The Pathologies of Big Data（大数据病理）

Flink Streaming (DataStream API) Event Time

R + RStudio(Server) + Spark/Hive 处理数据集

Apache Hive+Kerberos安装配置及 Kettle(Pentaho)访问带 Kerberos 认证的 Hive的集成

基于 Docker 的几种常用 CentOS7 镜像

DataX HdfsReader 源码分析，及空文件 Bug修复和路径正则功能增强

aarch64架构（ARMv8）系统环境下编译 Ambari

LDAP及CDH中服务的权限认证

Apache DolphinScheduler集群升级/安装(1.2.1 & 1.3.0)

Beeline 的进阶使用

HDFS 文件和 Hive 权限问题

ClickHouse 数据的更新（Mutation）

ClickHouse介绍及安装(含集群方式)和使用

工作流任务调度系统：Apache DolphinScheduler

Spark 中数据转换及DataFrame数据的行转列

大数据环境中的系统磁盘的常见问题

Hive中的自定义分隔符(包含Hadoop和Hive详细安装)

The Part-Time Parliament

Apache Kylin的安装和使用

Flink China Meetup 资料整理

CarbonData部署和使用

DataX离线数据同步

CDH之JDK 版本升级(Open JDK1.8)和cdh升级

Apache Griffin 5.0 编译安装和使用(包含依赖无法下载的问题解决)

大数据的分布式SQL查询引擎 -- Presto的详细使用

Structured Streaming Programming Guide（基于Spark 2.4.0官方文档）

Flink Streaming (DataStream API) Operators (flink 1.7 文档)

基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

一道小问题了解Scala和Java的正则

Beam技术

Hive中的数据迁移--迁移多库数据以及实际遇到的问题解决

Spark 2.1.2 Streaming + Kafka 1.1.0 -- 在IDEA中通过Maven创建Spark项目

HBase集群升级, 通过HBase rpm 或 tar包形式(以HDP 为例，包含升级及HBCK2 介绍和使用)