
大数据开发
文章平均质量分 74
Always_Best_Sign_X
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Paimon-流数据湖
1、统一批处理和流处理:Paimon支持批写和批读,以及流式写更改和流式读表更改日志。2、数据湖:Paimon具有成本低、可靠性高、元数据可扩展等优点,具有数据湖存储的所有优势。3、合并引擎:Paimon支持丰富的合并引擎。缺省情况下,保留主键的最后一项记录,可以“部分更新”或“聚合”。4、变更日志生成:Paimon支持丰富的Changelog producer例如“lookup”和“full-compaction”,可以从任何数据源生成正确且完整的变更日志从而简化流管道的构建。原创 2024-10-16 09:46:10 · 1146 阅读 · 0 评论 -
Apache Calcite原理解析(3)--解析层
Calcite中,JavaCC 的依赖已经被封装到 calcite-core 模块当中,如果使用 Maven 作为依赖管理工具,只需要添加对应的calcite-core模块坐标即可。在代码中,可以直接使用 Calcite 的 SqlParser 接口调用对应的语法解析流程,对相关的 SQL 语句进行解析。// SQL语句// 解析配置// 创建解析器// 解析SQL语句Load操作时将数据从一种数据源导入另一种数据源中,Load操作采用的语法模板如下。原创 2024-09-22 19:36:45 · 1165 阅读 · 0 评论 -
Apache Calcite原理解析(2):Avatica服务层
Calcite接受请求的第一站是服务层组件–Avatica ,Avatica是 Apache Calcite 的一个子项目,支持通过 HTTP 协议进行数据库操作。1、接受客户端的SQL请求;2、校验提交用户的配置信息(用户名和密码、权限校验);3、将SQL请求转发给Calcite-core模块;4、封装结果请求并返回;原创 2024-09-22 18:34:13 · 508 阅读 · 0 评论 -
Calcite实现方言转换
Calcite能够通过解析Sql为SqlNode,再将SqlNode转化为特定数据库的方言的形式实现Sql的统一。我们知道,Calcite一般会有四个阶段:parse、validate、optimize和execute。其中,在parse和validate阶段,会生成一个parse tree,树中的节点都是SqlNode的类型。在optimize节点,Calcite会将parse tree转换为RelNode,同时进行一些优化,这属于logical plan。原创 2024-09-11 18:47:28 · 960 阅读 · 0 评论 -
HiveSQL操作
文章目录1、SQL语言类型2、Hive的DDL操作:2.1、创建表:2.2、插入数据:2.3、修改表:2.4、删除表2.5 分区2.6分桶2.7、总结3、Hive表的DQL4、Hive中的内置函数4.1、字符串处理相关4.2、JSON字符串解析4.3、聚合函数4.4、数据类型转化CAST5、Hive中的视图和索引5.1、视图5.2、索引6、Hive的日期函数时间函数6.1、Hive的日期函数6.2、时间戳和日期格式互转7、Hive函数01-日期函数时间函数8、Hive函数02-分析函数(开窗函数、窗口函数)转载 2021-08-18 17:03:37 · 678 阅读 · 0 评论 -
大数据开发面试题(不断更新)
1、Hadoop2、Hbase在Hbase的基础架构中,zookeeper起到什么作用?Hbase基础列式存储的有点是什么?原创 2021-06-28 15:18:41 · 235 阅读 · 0 评论 -
flume 写入hdfs 采用lzo格式压缩,出现压缩格式支持错误
使用Flume消费kafka中数据,sink到hdfs中出现数据压缩格式支持错误;报错如下:error during configurationjava.lang.IllegalArgumentException: Unsupported compression codec Lzop. Please choose from: [None, BZip2Codec, DefaultCodec, DeflateCodec, GzipCodec, Lz4Codec, SnappyCodec]at org.原创 2021-06-21 19:18:34 · 1434 阅读 · 1 评论 -
rsync和xsync文件同步命令的安装和部署
xsync命令是自己编写文件同步命令shell脚本,其中调用的是rsync命令1、rsync的安装每台机器都需要运行下面的命令:安装:yum install rsync;启动服务以及开机自启动:systemctl start rsyncd.servicesystemctl enable rsyncd.service2、编写xsync脚本2.1、首先执行:echo $PATH我这里直接使用的是root用户所以在/root/bin下的脚本可以在任意位置执行,所以编写的xs.原创 2021-06-16 19:11:06 · 2908 阅读 · 0 评论 -
Linux执行shell脚本执行远程命令出现bash:java:command not found问题
文章目录1、Linux环境中Java环境没配置2、Linux环境变量配置文件的问题1、Linux环境中Java环境没配置 所使用的的Linux的java任然是系统自带的java版本,更多细节自行百度;2、Linux环境变量配置文件的问题 通常我们在配置安装java的时候,...原创 2021-06-16 15:25:15 · 1830 阅读 · 0 评论 -
数据仓库-Hive
目录1、数据仓库1.1、数据仓库基本概念1.2、数据仓库主要特征1.2.1、面向主题1.2.2、集成性1.2.3、非易失的1.2.4、时变性1.3、数据库与数据仓库1.4、数据仓库的分层架构数据仓库分层原因:1.5、数据仓库的元数据管理2、Hive基本概念2.1、Hive简介2.2、Hive架构2.3、Hive的交互方式第一种交互方式 :bin/hive第二种交互方式:使用SQL语句或者SQL脚本进行交互3、Hive的基本操作1、数据仓库1.1、数据仓库基本概念 &n原创 2021-05-12 14:37:24 · 265 阅读 · 0 评论 -
Hadoop详解-MapReduce-02
目录1、MapReduce介绍2、MapReduce编程规范Map 阶段 2 个步骤:Shle 阶段 4 个步骤:Reduce 阶段 2 个步骤:2.2、单词计数案例2.3、分区Partition2.4、MapReduce排序和序列化2.4.2、小案例2.5、Partition分区2.6、规约Combiner2.6.1、概念2.6.2、实现3、MapReduce运行机制3.1、MapTask工作机制整个Map阶段流程大体:3.2、ReduceTask工作机制3.3、Shuffle过程4、MapReduce案原创 2021-05-06 15:02:41 · 675 阅读 · 0 评论 -
Hadoop详解-HDFS-01
目录1、Hadoop集群搭建1.1、为什么在安装Hadoop集群之前需要重新编译?1.2、Hadoop 2.X版本的架构模型架构一(单节点架构):文件系统核心模块1、HDSF文件存储系统中核心组件:2、Yarn资源调度系统(也叫做数据计算核心模块)中:架构二(高可用架构):文件系统核心模块1、HDSF文件存储系统中核心组件:1.3、Hadoop集群搭建1、core-site.xml2、hdfs-site.xml3、hadoop-env.sh4、mapred.site.xml5、yarn-site.xml6、原创 2021-05-06 11:21:45 · 234 阅读 · 0 评论 -
Zookeeper分布式一致性与实践
目录1、Zookeeper概述1.1、Zookeeper的设计目标1.2、Zookeeper在保证分布式一致性时,具有以下五点特性:1.3、Zookeeper中的基本概念1.4、Zookeeper中的ZAB协议1.4.1、协议中的两种基本模式(后续有机会遇到再说吧)2、Zookeeper常规操作2.1、Zookeeper运行环境2.2、客户端脚本的shell操作2.3、Zookeeper原生JavaAPI操作2.4、开源客户端zkClient操作2.5、开源客户端Curator操作(1)环境搭建(pom.x原创 2021-05-06 11:05:44 · 913 阅读 · 0 评论