文章目录
一、InceptorSQL概述
InceptorSQL是一个**分布式SQL引擎,**经常在一下这些场景中使用:1. 批处理; 2.统计分析;3. 图计算和图检索;4.交互式统计分析
Inceptor中表的种类有很多,他们的划分规则如下:
- 按 Inceptor的所有权 分类可分为:外部表(或简称为外表)和托管表(内表)。
- 按 表的存储格式 分类可分为:TEXT表、ORC表、CSV表和Holodesk表。
- 按表 是否分区 可分为:分区表和非分区表。
- 按表 是否分桶 可分为:分桶表和非分桶表。
- 托管表(内表)
CREATE TABLE 默认创建托管表。Inceptor对托管表有所有权——用 DROP 删除托管表时,Inceptor会将表中数据全部删除。 - 外表
外表用 CREATE EXTERNAL TABLE 创建,外表中的数据可以保存在HDFS的一个指定路径上(和LOCATION <hdfs_path> 合用)。Inceptor对外表没有所有权。用DROP 删除外部表时,Inceptor删除表在metastore中的元数据而不删除表中数据,也就是说 DROP 仅仅解除Inceptor对外表操作的权利。 - Text表
文本格式的表,统计和查询性能都比较低,也不支持事务处理,所以通常用于将文本文件中的原始数据导入Inceptor中。针对不同的使用场景,用户可以将其中的数据放入ORC表或Holodesk表中。Inceptor提供两种方式将文本文件中的数据导入TEXT表中:
(1)建外部TEXT表,让该表指向HDFS上的一个目录,Inceptor会将目录下文件中的数据都导入该表。(推荐)
(2)建TEXT表(外表内表皆可)后将本地或者HDFS上的一个文件或者一个目录下的数据 LOAD 进该表。这种方式在安全模式下需要多重认证设置,极易出错,星环科技 不推荐 使用这个方式导数据。 - CSV表
CSV表的数据来源为CSV格式(Comma-Separated Values)的文件。文件以纯文本形式存储表格数据(数字和文本),CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。和TEXT表相似,CSV表常用于向Inceptor中导入原始数据,然后针对不同场景,用户可以将其中的数据放入ORC表或Holodesk表中星环科技 不建议在任何计算场景中使用CSV表 - ORC表
ORC表即ORC格式的表。在Inceptor中,ORC表还分为ORC事务表和非事务表。a. ORC事务表支持事务处理和更多增删改语法(INSERT VALUES/UPDATE/DELETE/MERGE),所以如果您需要对表进行事务处理,应该选择使用ORC事务表。b. ORC非事务表则主要用来做统计分析。 - Holodesk表
Holodesk表存储在内存或者SSD中(可以根据您的需要设置),同时,星环科技为其提供了一系列优化工具,使得在Holodesk表上进行大批量复杂查询能达到极高的性能。所以,如果您的数据量特别大,查询非常复杂,您应该选择使用Holodesk表。
二、实验环境
基于星环云课堂TranswarpVD
三、实验准备
- 进入TDH-Client目录下
cd /transwarp/Desktop/TDH-Client - 执行TDH Client的init.sh脚本,此操作只对当前Session有效
source ./init.sh
四、实验目的
• 掌握Inceptor SQL的基本使用。
• 了解Incept

本文介绍了InceptorSQL分布式SQL引擎,包括其在批处理、统计分析等场景的应用,详细讲解了内外表、ORC表(事务表与非事务表)、Holodesk表的区别以及实验环境和步骤,如使用Waterdrop连接、WordCount示例、表的创建与数据操作等。
最低0.47元/天 解锁文章
5370

被折叠的 条评论
为什么被折叠?



