
大数据
文章平均质量分 94
Yore Yuen
会持续分享大数据等知识,一起交流,共同进步
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Kudu 从源码开始构建并部署 Kudu 集群
主要介绍了Apache Kudu 最新版 1.15.0 版本的编译及部署。为了对整个部署有一个更加明确的过程,前面又对 Kudu 进行了简要的介绍。编译中需要注意的事项,部署中的配置等,以及部署完成后,对集群的读写进行测试校验。最后是整理的一个常用命令。原创 2022-04-10 23:03:29 · 4223 阅读 · 0 评论 -
HBase集群升级, 通过HBase rpm 或 tar包形式(以HDP 为例,包含 升级及HBCK2 介绍和使用)
HBase 作为 HBase 生态圈重要的组建,在海量数据分析中占有重要的位置。随着 HBase 版本迭代,生产环境的 HBase 难免会面对升级的需求,升级的原因,要么是需要用到新版本的特性,要么是当前的版本存在不得不升级的缺陷,等。本文以 HDP 环境为例,详细介绍了 HBase 的编译及 rpm 包的生产过程,来对生产环境中的 HBase 进行升级。其中介绍 RPM 的基础知识,同时也介绍了两种生成 RPM 包的方式原创 2022-04-10 23:00:06 · 4049 阅读 · 1 评论 -
手动安装Hive 3(以 hdp 为例,适用于 CentOS 8)
本文详细讲述了 Hive 3 的安装过程(包括 Hadoop、ZooKeeper、Tez、Hive),使用 Tez 引擎,基于 HDP 版展开,使用于 CentOS7 和 CentOS8 系统,同时 针对于生产环境重点介绍了重要配置项的推荐值。最后有给出了方便使用的测试,以及 Hive SQL 的小实例。原创 2021-10-07 06:40:46 · 2180 阅读 · 0 评论 -
In Search of an Understandable Consensus Algorithm(寻找可理解的共识算法)
Raft 是一种用于管理复制日志的共识算法,它产生的结果等价于(multi-)Paxos,与 Paxos 一样高效但它的结构与Paxos不同; 这使得 Raft 比 Paxos 更易于理解,也为构建实际系统提供了更好的基础。为了增强可理解性,Raft 将共识的关键要素(例如 leader 选举、日志复制和安全性)分离,并强制执行更强的一致性以减少必须考虑的状态数量。用户研究的结果表明 Raft 比 Paxos 更容易让学生学习。Raft 还包括一种用于更改集群成员的新机制,该机制使用重叠多数票(overla翻译 2021-09-21 20:13:56 · 3032 阅读 · 0 评论 -
一个大数据环境下表结构统一导出的工具
本文介绍了一个可以统一导出大数据环境中的多种数据库的表,详细介绍了打包和使用,包括导出 Phoenix、HBase、Hive、Impala、Kudu、ClickHouse、MySQL 的 DDL 的使用示例。原创 2021-09-21 20:10:10 · 1366 阅读 · 0 评论 -
Apache Doris 的一场编译之旅
本文主要针对 Apache Doris 的编译进行了详细介绍,包括了通过 Docker 开发环境和直接编译两种方式,其中直接编译部分包括编译前对环境的要求,及重要编译环境的安装设置,以及编译过程中出现的问题给出了解决方法供参考,最后为了方便大家编译,又提供了下载连接原创 2021-02-05 17:24:18 · 2636 阅读 · 5 评论 -
HDP 之 Timeline Service 2.0
本文树妖介绍了 HDP 之上的 Timeline Service 2.0。包含体系结构、安装、System Service模式、ats-hbase 的生命周期管理、ats-hbase清除、发布 Application-Specific 数据、Timeline Service 2.0 的 REST API 等内容翻译 2021-01-17 06:06:15 · 4553 阅读 · 2 评论 -
DataX Transformer从入口到加载的源码分析及UDF扩展与使用
本文重点介绍了阿里的开源异构数据离线同步工具 DataX中的 Transformer 组件的源码分析,及自定义扩展和使用,其中为了更好的使用 Transformer UDF 又对这部分的源码从入口到加载的整个过程进行分析。本文以解密为示例,详细介绍了 DataX Transformer 中的 UDF 的使用和自定义扩展。原创 2020-05-20 22:00:04 · 4036 阅读 · 1 评论 -
The Pathologies of Big Data(大数据病理)
本文详细描述了大数据的产生原因,为了找到大数据产生的原因,论文前部分通过一份伪数据分析了传统情况下处理数据出现的问题,接着有分析了计算机的硬件,通过磁盘、SSD、内存的顺序读写和随机读写的对比,找到了处理解决大数据问题的规则,接着这个规则对面对的问题给出了解决方法,最终为大数据下定了一个定义。翻译 2020-10-31 10:04:38 · 2118 阅读 · 0 评论 -
Flink Streaming (DataStream API) Event Time
本文主要介绍了Flink DataStream 事件时间(Event Time),其中包含水印(Watermarks)生成、水印策略、水印使用与编写、Kafka 连接器与水印、内置水印生成器等知识点。翻译 2020-10-20 22:25:36 · 423 阅读 · 0 评论 -
R + RStudio(Server) + Spark/Hive 处理数据集
本文重点介绍了R环境的配置、RStudio Server 的安装,及中间出现的问题的解决。有详细介绍了使用 RStudio 如何以 local和 cluster 两种方式连接 Spark。最后使用我们安装集成的环境运行实现一个 WordCount & TOPN 的功能,快速熟悉体验 RStudio + Spark 处理数据集。最后以`了获取每个店铺排名前3的顾客`演示了 R 连接 Hive 对数据进行处理的。原创 2020-08-20 18:34:00 · 1570 阅读 · 0 评论 -
Apache Hive+Kerberos安装配置及 Kettle(Pentaho)访问带 Kerberos 认证的 Hive的集成
本文重点介绍了客户端如何访问带有 Kerberos 认证的 Hive,其中客户端工具以 Kettle 和 DBeaver 为例。为了详细介绍整个过程,本文又介绍了如何基于 Apache 版本的 Hadoop 和 Hive 搭建带有 Kerberos 认证的大数据集群。Kerberos 客户端环境重点以 Windows 为例,因此也介绍了在 Windows 系统下如何安装 和使用 Kerberos。最后经过修改 DBeaver 和 Kettle 启动脚本,从而成功访问带有 Kerberos 认证的 Hive原创 2020-07-07 19:10:05 · 7259 阅读 · 13 评论 -
基于 Docker 的几种常用 CentOS7 镜像
本文介绍了 Docker 的安装及使用,利用 Docker 构建几个开发测试中常用的 CentOS 镜像环境:基础纯净版、大数据开发环境版、 带数据库 (目前是MySQL) 版。中间又介绍了镜像的制作及如何上传到案例云镜像仓库,方便大家和自己在使用环境时快速拉取和下载原创 2020-07-07 19:01:17 · 31936 阅读 · 5 评论 -
DataX HdfsReader 源码分析,及空文件 Bug修复和路径正则功能增强
本文主要在源码层面介绍了 DataX hdfsreader 模块,针对实际生产环境中出现的两个问题,一个是当用普通方式在 json 中指定 path 时,改文件夹下存在 空文件时异常;以及当使用正则方式指定 path 时当前仅支持 单字符和多字符,而直接使用字符集或者范围时会报错。针对这两个 Bug 在源码层面上进行了修复。原创 2020-05-22 21:33:23 · 3813 阅读 · 3 评论 -
aarch64架构(ARMv8)系统环境下编译 Ambari
本文主要介绍了在 aarch64架构系统(ARM v8)下的 Ambari和 HDP的移植,重点对 Ambari 的编译及中间出现的问题的解决方法,并提供了最终的华为官方的镜像资源包的下载连接。原创 2020-05-20 19:02:28 · 9342 阅读 · 22 评论 -
LDAP及CDH中服务的权限认证
主要对 LDAP 进行了介绍,重点选择 OpenLDAP进行了说明,重点是对 OpenLDAP的安装与配置进行了详细的说明。最后再将 LDAP 与 CDH 环境集成(主要以 Hive、Impala、Hue为例)。开启了LDAP 后对服务访问就需要加上用户认证,之后重点介绍了Hive、Impala的 JDBC、Beeline、脚本形式的使用,重点关注 Impala-shell 如何脚本化执行 sql 文件,最后重点注意在 Spring Boot 中访问 Impala时的几个注意点。原创 2020-04-19 11:22:58 · 5513 阅读 · 0 评论 -
Apache DolphinScheduler集群升级/安装(1.2.1 & 1.3.0)
主要对 Apache DolphinScheduler最近的几个版本进行了说明,方便大家选择需要的版本进行安装。同时有重点介绍了最新版本 Apache DolphinScheduler 1.2.1的集群方式的部署,包括全新方式的安装方式,和在旧版本 1.1.0 上的升级,以及中间需要注意的几个点。最后又更新了 DS 1.3.0 的升级安装。原创 2020-03-10 05:19:35 · 4188 阅读 · 4 评论 -
Beeline 的进阶使用
本文对Beeline做了较为详细的介绍,以及Beeline命令的参数和输出格式。接下来有分别介绍了使用 Beeline 连接本地或远程连接 Hive 、Impala 和 MySQL 的方式和命令。其中涉及到sql 语句的执行、sql 脚本的执行、交互式命令行的使用等,中间又介绍了在脚本化或者批量运行脚本时的 后台脚本执行的方式,每一种方式对参数都有详细的说明,并且配有示例。原创 2020-03-04 21:57:14 · 6987 阅读 · 2 评论 -
HDFS 文件和 Hive 权限问题
本文详细讲解了Linux的文件权限问题,以及重点介绍了 HDFS 的文件权限问题和 Hive的权限问题。原创 2019-12-14 16:55:34 · 5903 阅读 · 1 评论 -
ClickHouse 数据的更新(Mutation)
本文着重讲解了ClickHouse关于UPDATE数据时的一些问题,由一个需求引出,通过TPC-DS的数据集演示这种场景,接着通过 UPDATE、INSERT、VIEW方式尝试实现,期间会和MySQL对比,最终通过 INSERT实现这个需求。最后对比了和MySQL实现上的区别,并做了一个小节。原创 2019-11-21 14:25:19 · 23580 阅读 · 1 评论 -
ClickHouse介绍及安装(含集群方式)和使用
本文比较详细的介绍了 ClickHouse,包括其名字的来由、使用场景、不使用场景、特点,为了后面的部署和使用有重点介绍了 ClickHouse 的架构。当然核心的 ClickHouse 的引擎也对其做了介绍,数据类型。接着详细介绍了ClickHouse 的部署,包括集群方式部署,分布式表的使用,通过几个示例的使用让大家对 ClickHouse 有一个整体完整的认识。原创 2019-11-15 20:06:41 · 11951 阅读 · 12 评论 -
工作流任务调度系统:Apache DolphinScheduler
Apache DolphinScheduler(目前处在孵化阶段,原名为EasyScheduler)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。本文对DolphinScheduler做了简要的概述,并详细讲解了其安装,通过简单的例子快速开始并使用。最重要的是Worker分组和数据源的添加,以及与Azkaban的对比。原创 2019-11-02 14:59:51 · 73442 阅读 · 62 评论 -
Spark 中数据转换及DataFrame数据的行转列
本文主要讲述了如何使用Spark将行数据转换为列数据。Spark中DataFrame的数据可能是一个行形式的数据,我们可以通过 pivot 算子将其转换为列形式的数据,处理后的数据类型依然为DataFrame,后续我们可以将其注册为临时视图对其做下一步的处理,最终将满足需求的数据按照给定的格式输出。原创 2019-10-12 15:54:09 · 5812 阅读 · 0 评论 -
大数据环境中的系统磁盘的常见问题
本文主要针对CentOS7系统挂载点空间不够的情况下,如何对其进行扩容。将新添加的磁盘的容量通过创建多个主分区,然后添加的对应的卷组,进而扩展逻辑分区大小,从而解决空间使用率过高的警报问题。原创 2019-09-20 23:33:18 · 2424 阅读 · 0 评论 -
Hive中的自定义分隔符(包含Hadoop和Hive详细安装)
导出到 HDFS 或者本地的数据文件,需要直接导入 Hive 时,有时包含特殊字符,按照给定的字段单字符分隔符或者默认换行分隔符,插入到 Hive 的数据可能不是我们预期的,此时需要我们自定义 Hive 的分隔符。同时Hive默认只支持单字符,如果需要支持多字符作为分隔符,可以按照如下方式重写输入格式化类来自定义分割符,也可以进行一些设置,并在建表时声明出来分割方式。下面会分别介绍这两种方式。在介绍之前先准备环境,介绍一下Hadoop和Hive的安装。原创 2019-04-04 15:34:34 · 3767 阅读 · 5 评论 -
The Part-Time Parliament
本文主要翻译自1998年Lamport发表的论文The Part-Time Parliament,这篇论文其实是作者早在8年前提出了,也就是分布式系统中的数据一致性的一种全新的算法—Paxos算法。非常值得阅读的一篇论文翻译 2019-09-23 13:50:09 · 977 阅读 · 0 评论 -
Apache Kylin的安装和使用
本文主要快速概要介绍了Apache Kylin是什么,Kylin的特点、应用场景、支持的大表数据量、性能、维度和度量、事实表和维表、Kylin常见的几种部署方式,硬件要求、软件要求。最后重点介绍了Kylin的安装和使用。原创 2019-10-07 07:20:27 · 3669 阅读 · 0 评论 -
Flink China Meetup 资料整理
Apache Flink ChinaApache Flink China最新发布的活动的大家可以在 活动行 ,这个还有微信小程序, 然后在上面搜"Apache Flink Meetup",微信公众号可以关注 “Ververica”。下面整理并分享一下 Apache Flink China Meetup 活动的的资料,更多历史资料可以关注其官方钉钉群。活动书刊书刊名期数...原创 2019-06-30 00:37:44 · 939 阅读 · 10 评论 -
CarbonData部署和使用
本文主要介绍了华为开源的一个新型的大数据列式存储格式CarbonData。简要描述了CarbonData的特性。有介绍了CarbonData的安装以及和Spark的集成,最后在spark-shell中通过编程执行SQL,测试了CREATE、LOAD、SELECT、INSERT、UPDATE、DELETE原创 2019-08-30 18:35:10 · 5075 阅读 · 5 评论 -
DataX离线数据同步
本文主要介绍了常用的数据同步方案和使用的工具或平台,重点介绍了DataX,介绍了DataX的诸多便利之处,以及架构和DataX的调度流程。然后又介绍了DataX的各个数据源之间的离线数据同步,包括ODPS到HDFS、HDFS到HDFS、MongoDB到HDFS,以及CDH版本Impala支持的文件格式和DataX支持的格式差别,最后是MongoDB同步时带密码认证失败时的临时解决方案。最后针对于带有 Kerberos 认证的域外数据同步,讲解了配置及注意点。原创 2019-08-26 19:15:07 · 2604 阅读 · 0 评论 -
CDH之JDK 版本升级(Open JDK1.8)和cdh升级
本文主要接受了CDH 中 JDK 的升级,主要以Open JDK 为例。常见的 JDK 有 Oracle JDK、和 Open JDK,而常用到的 Open JDK有 Linux yum 原版的 Open JDK、Zulu JDK、GraalVM CE JDK。之后又介绍 CDH 的升级,以cdh 6.2.0 为例,升级到 6.3.1 ,这种方式也适用于行进的其它版本。原创 2019-06-12 16:52:13 · 4305 阅读 · 1 评论 -
Apache Griffin 5.0 编译安装和使用(包含依赖无法下载的问题解决)
前言安装 Apache griffin 最新版时,GitHub的 release 是一个源码包,需要下载下来后编译进行安装和配置,问题是编译的时候有些依赖在仓库中根本下载不到,导致编译失败,可以按照如下方法进行编译。1. 编译前准备环境中安装好如下插件GitMaven2. 下载源码访问GitHub,搜索 griffin ,第一个 apache/griffin 就是这个项目,可以...原创 2019-05-27 17:14:35 · 8276 阅读 · 69 评论 -
大数据的分布式SQL查询引擎 -- Presto的详细使用
本文主要介绍了Presto ,具体介绍了Presto的概述、概念(包括服务进程、数据源、查询执行模型)、整体架构、详细的集群安装方式(服务端安装配置、客户端)、Web客户端工具yanagishima的安装和使用。Presto的使用(MySQL、Hive、Kudu、Kafka等,还有JDBC、Kafka实时数据的获取和使用)。它是一个在 Facebook 主持下运营的开源项目。Presto是一种旨在使用分布式查询有效查询大量数据的工具,Presto是专门为大数据实时查询计算呢而设计和开发的产品。原创 2019-05-19 23:33:15 · 3572 阅读 · 0 评论 -
Structured Streaming Programming Guide(基于Spark 2.4.0官方文档)
Spark 2.4.0官方文档 Structured Streaming Programming Guide 结构化流中文翻译翻译 2019-04-09 15:00:27 · 977 阅读 · 0 评论 -
Flink Streaming (DataStream API) Operators (flink 1.7 文档)
Application Development /Streaming (DataStream API)/ OperatorsOperators算子将一个或多个 DataStreams 转换为新的 DataStream。 程序能将多个转换结合成复杂的数据流拓扑。本部分介绍了基本的数据转换操作,应用这些内容后的有效物理分区以及对 Flink operator chaining 的...翻译 2019-04-04 13:46:14 · 360 阅读 · 0 评论 -
基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析
Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql,然后再对查询到的数据进行处理也能得到预期的结果,但是Mysql往往还有其他业务也在使用,这些业务往往比较重要,通过JDBC方式频繁查询会对My...原创 2019-03-19 15:29:26 · 5411 阅读 · 14 评论 -
一道小问题了解Scala和Java的正则
问题:比如现在有一个字符串"[] [1] [abc123]",用正则匹配中括号中有值的字符串。这类问题在实际项目中可能会经常遇到,我们获取到的数据可能是用某些特定的符号进行分割,比如上面字符串使用的一个空格来分割的(比如其它的一些空字符),然后获得某些信息又由特定的字符包裹着,比如上面的是用中括号包裹(也可能是其它的,比如括号,大括号等等)。一、正则表达式匹配首先看Java代码怎...原创 2019-01-24 00:47:47 · 339 阅读 · 0 评论 -
Beam技术
一、简介在大数据处理中,流计算技术包括Storm、Spark Streaming和Flink,实际应用中还包括Storm Trident、Samura以及Google MillWhell和亚马逊的Kinesis等技术。离线处理基本上都基于Hadoop和Hive,那么实时流计算技术能否像离线数据处理一样出现Hadoop和Hive这种事实上的技术标准呢?Google给出的答案是:Beam。Ap...原创 2018-10-31 13:17:50 · 2946 阅读 · 0 评论 -
Hive中的数据迁移--迁移多库数据以及实际遇到的问题解决
Hive的数据迁移其实就是对Hive的数据进行导入导出的操作。如果数据表不是很多,我们可以直接使用Hive SQL来处理,一张一张表的导出,然后在进行导入。 对Hive的数据进行操作,常用的是登陆Hive客户端命令,常用的方式一般有两种,①hive,直接进入;②通过Beeline,在shell中输入beeline,然后连接我们的Hive,输入beeline> !connection ...原创 2018-09-04 21:26:38 · 13377 阅读 · 4 评论 -
Spark 2.1.2 Streaming + Kafka 1.1.0 -- 在IDEA中通过Maven创建Spark项目
一、开发环境中需要安装和配置如下安装JDK,配置JDK环境变量(jdk1.8) 安装Scala,配置JDK环境变量(scala2.11.8) 最好安装一个Maven,虽然Idea已经集成自带的有Maven 测试环境中已经安装有Zookeeper集群,Kafka需要用到(3.4.5) 测试环境中已经安装有Kafka集群(1.1.0) 测试环境中已经安装有Spark集群(2.1.2...原创 2018-07-22 06:27:22 · 3536 阅读 · 0 评论