
大数据
文章平均质量分 73
九剑问天
这个作者很懒,什么都没留下…
展开
-
走进 Iceberg Java API 系列 1- Catalog
随着Iceberg集成到越来越多的计算引擎中,有各种提供了强大功能的接口可以供你使用。本系列将介绍在没有引擎的情况下使用冰山表的底层Java API,而本文是本系列的第一篇。翻译 2022-06-30 12:22:42 · 2553 阅读 · 2 评论 -
Iceberg系列-API模块-Table相关概述-1
Iceberg 作为一个开放的 table format,从设计之初就有一个高度抽象的良好框架。本节将带领大家领略 Iceberg API 模块下与表相关的内容,主要涉及表的设计、分区规范、快照管理等,但本节将只讲接口设计相关,具体 Iceberg 对相关部分的核心具体实现,后述再详述。 进入正题,本次既然是讲与表相关的设计,那么我们肯定要从一等公民 Table 开始。Table在Iceberg中,Table 是顶层的核心概念之一,为了更好的理解它,我们首先将这个接口的方法分类列出,读者可以不必原创 2022-03-21 16:43:04 · 1624 阅读 · 0 评论 -
Iceberg顶层设计-FileIO:云原生表
在过去的几个月里,我们被问到很多关于 Iceberg FileIO 的问题,比如“它是否支持 Azure 或 Google Cloud?” 或“为什么不使用 Hadoop 中的 S3AFileSystem?”。基于这些对话,关于 FileIO 是什么以及它在各种存储提供者和处理引擎中扮演的角色,似乎存在相当多的困惑。这是一个绝佳的机会,可以更深入研究 Iceberg 的内部设计,并阐明它和传统方式在与存储层连接方面有何不同。...翻译 2022-03-21 14:08:30 · 766 阅读 · 0 评论 -
Docker、Spark 和 Iceberg:体验 Iceberg 的最快方式
如果您因为听说Iceberg解决了若干问题,例如模式演变或行级更新,而对Iceberg感兴趣,并且你想要一种简单的方法来体验它,那么您来对地方了!这篇文章将让您在本地几分钟内启动并运行 Spark 和 Iceberg。同时将展示出许多令人惊叹的 Iceberg 特性,这些特性可以解决您以前使用数据仓库时遇到的问题。翻译 2022-02-24 19:33:36 · 1898 阅读 · 0 评论 -
Apache Iceberg 0.13 特性介绍-Flink/Spark新版本支持、增量删除等特性来袭
Apache Iceberg 社区刚刚发布了 0.13 版,其中有很多很棒的新增功能!在这篇文章中,我将介绍一些本版本的亮点功能。翻译 2022-02-23 15:52:06 · 1205 阅读 · 0 评论 -
iceberg系列:源码- BinPacking 解读
在Iceberg中,有一个名为BinPacking的类,这个类在manifest文件和规划切分时使用频繁。我们这一章来解读此类。原创 2022-02-21 17:33:05 · 1323 阅读 · 0 评论 -
iceberg系列(1):存储详解-初探2
Iceberg是数据湖热门组件之一,本系列文章将深入探究一二。首先将研究iceberg底层存储。原创 2022-02-17 10:12:08 · 664 阅读 · 0 评论 -
iceberg系列(1):存储详解-初探1
Iceberg是数据湖热门组件之一,本系列文章将深入探究一二。首先将研究iceberg底层存储。原创 2022-02-17 10:11:25 · 1942 阅读 · 0 评论 -
iceberg系列(2):存储详解-partition-2
iceberg分区演化 可以通过添加、删除、重命名或重新排序分区规范字段来改进表分区。原创 2022-02-17 10:07:48 · 1550 阅读 · 0 评论 -
iceberg系列(2):存储详解-partition-1
iceberg分区演化可以通过添加、删除、重命名或重新排序分区规范字段来改进表分区。原创 2022-02-17 10:06:33 · 1086 阅读 · 0 评论 -
iceberg 源码编译
iceberg源码编译原创 2021-08-13 00:17:34 · 2576 阅读 · 0 评论 -
使用Docker创建Kerberos认证中心
使用Docker创建Kerberos认证中心使用Docker创建Kerberos认证中心1、构建KDC中心2、创建Kerberos客户端client使用Docker创建Kerberos认证中心使用Docker构建Kerberos KDC中心以及客户端。1、构建KDC中心我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:FROM centos:7RUN yum install -y krb5-server原创 2021-02-28 21:09:42 · 2268 阅读 · 1 评论 -
Spark分布式内存及存储管理机制浅析
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎同,它最初是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是其中间输出结果更倾向于保存在内存中,从而不再需要读写HDFS,因此Spark的计算效率得...原创 2019-11-18 19:19:17 · 989 阅读 · 0 评论 -
Oozie工作流程定义详解
Oozie工作流程定义是一个DAG(Directed Acyclical Graphs)图,它由控制流节点(Control Flow Nodes)或动作节点(Action Nodes)组成,各个节点又是通过表征转移的箭线(transitionsarrows)互相连通。对于工作流一般对应存在流程定义语言,例如jBPM是jPDL,大多数都是基于XML定义的,Oozie流程定义语言也是基于XML定义转载 2015-09-07 15:56:56 · 951 阅读 · 0 评论 -
hive UDF使用本地文件资源
a、未注册用本地地址,e.g. String filepath = "/data/aaa.txt";b、注册至hive后用相对地址,e.g.String filepath = "./aaa.txt";注:hive中注册 add jar [jar file path] or add file [file path]原创 2015-09-11 12:03:20 · 2667 阅读 · 0 评论 -
Oozie配合Hive、Sqoop定时导出Hive表数据至RDB
Oozie配合Hive、Sqoop完成定时导出Hive表数据至RDB一、整体流程 Oozie定时启动Hive程序,将Hive表数据根据需求导出至HDFS,而后启动Sqoop,将HDFS数据导入至RDB目标表。二、HQL数据导出语句(需根据具体需求再行修改) 略过三、Sqoop导入数据至RDBsqoop export --connect jdbc:mysql://mo原创 2015-09-07 16:37:31 · 2744 阅读 · 0 评论 -
hadoop、hbase、zookeeper整合kerberos,搭建安全平台
随着Hadoop等大数据技术的普及,其平台的安全性日益受到企业的重视,特别是对安全性要求较高的通信、金融等领域。而安全性主要包括两个部分:Authentication、Authorization。本文侧重于Authentication方面,旨在通用整合Kerberos,提升大数据平台的安全性,降低风险。至于Authorization方面内容,另有篇幅描述。原创 2014-10-31 16:15:19 · 6544 阅读 · 1 评论 -
JAVA端通过Oozie Client 启动Oozie任务
oozie虽然内置了条件触发,但有时当我们的触发条件比较复杂的时候,可以使用java程序来控制其运行,而oozie同样提供了client端供使用。通过OozieClient 端设置confWorkflow.xml指定任务内所需配置文件等信息,如hive的配置文件等。需要注意必须指定user.name,否则将导致权限错误,使程序一直处于Hold状态。1、JAVA端调用原创 2015-09-07 16:39:56 · 7543 阅读 · 0 评论 -
hbase 修复 hbase hbck
hbase hbck新版本的 hbck 可以修复各种错误,修复选项是: (1)-fix,向下兼容用,被-fixAssignments替代 (2)-fixAssignments,用于修复region assignments错误 (3)-fixMeta,用于修复meta表的问题,前提是HDFS上面的region info信息有并且正确。 (4)-fixHdfsHoles,修转载 2016-12-14 14:40:18 · 18436 阅读 · 0 评论 -
kafka topic增加partition
通过kafka-topics.sh 的alter选项 ,将topic1的partitions从1增加到6; ./kafka-topics.sh --alter --topic topic1 --zookeeper zkip:2181/kafka --partitions 6原创 2017-02-15 17:34:15 · 17577 阅读 · 1 评论 -
CDH 5.7.0 Hive使用Mysql作为元数据库,报unable to find the jdbc database jar on host
将mysql-connector-java-5.1.34-bin.jar拷贝至以下目录:/opt/cm-5.7.0/share/cmf/lib/ 如不起作用,将mysql-connector-java-5.1.34-bin.jar放入/usr/share/java/(如不存在则创建),并重命名为:mysql-connector-java.jar原创 2016-10-08 14:16:25 · 5619 阅读 · 1 评论 -
HBase shell 使用SingleColumnValueFilter
HBase shell 使用SingleColumnValueFilter原创 2016-07-13 10:50:58 · 4046 阅读 · 1 评论 -
不进hbase shell,直接使用Hbase命令创建预分区表
hbase org.apache.hadoop.hbase.util.RegionSplitter test_table1 HexStringSplit -c 100 -f info-c 是指将预分为多少个region-f family名字原创 2017-04-26 16:00:33 · 1633 阅读 · 0 评论 -
使用Spring Boot操作Hive JDBC时,启动时报出错误:NoSuchMethodError: org.eclipse.jetty.servlet.ServletMapping.setDef
使用Spring Boot操作Hive JDBC时,启动时报出错误:NoSuchMethodError: org.eclipse.jetty.servlet.ServletMapping.setDefault(Z)Vorg.springframework.context.ApplicationContextException: Unable to start embedded cont原创 2017-10-30 16:51:47 · 7930 阅读 · 0 评论 -
Spark SQL 实现 group_concat
Spark SQL 实现 group_concat环境:Spark 2.0.1 以下貌似需要至少Spark 1.6支持,未实测表结构及内容:+-------+---+| name|age|+-------+---+|Michael| 29|| Andy| 30|| Justin| 19|| Justin| 20|| LI| 20|+----原创 2016-10-14 10:21:35 · 13448 阅读 · 2 评论 -
Oozie Coordinator使用及详解
Oozie所支持工作流,工作流定义通过将多个Hadoop Job的定义按照一定的顺序组织起来,然后作为一个整体按照既定的路径运行。一个工作流已经定义了,通过启动该工作流Job,就会执行该工作流中包含的多个Hadoop Job,直到完成,这就是工作流Job的生命周期。那么,现在我们有一个工作流Job,希望每天半夜00:00启动运行,我们能够想到的就是通过写一个定时脚本来调度程序运行。如果我们有多转载 2015-09-07 15:51:58 · 974 阅读 · 0 评论