Apache Hive和Snowflake的`CREATE TABLE`语法和功能特性整理的对比表

本文链接：https://blog.youkuaiyun.com/weixin_30777913/article/details/146812806

写一个Apache Hive中CREATE TABLE语句转换为对应Snowflake中CREATE TABLE语句的程序，现在需要一个根据功能的相似性对应的Apache HiveQL和Snowflake SQL的CREATE TABLE语句的表。

以下是Apache Hive中CREATE TABLE语句的合法实例及其功能说明，涵盖所有主要语法规则和参数组合：

1. 基本内部表

CREATE TABLE employees (
  id INT COMMENT 'Employee ID',
  name STRING,
  salary FLOAT
)
COMMENT 'Employee details'
STORED AS ORC;

功能：创建一个以ORC格式存储的内部表，包含ID、姓名和薪水字段，附带表和列注释。

2. 外部表指定存储位置

CREATE EXTERNAL TABLE logs (
  log_date STRING,
  content STRING
)
PARTITIONED BY (region STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION '/user/hive/external/logs';

功能：创建外部表，按region分区，数据存储在HDFS路径，字段以制表符分隔。

3. 分桶排序表

CREATE TABLE users (
  user_id INT,
  username STRING,
  signup_date DATE
)
CLUSTERED BY (user_id) INTO 4 BUCKETS
SORTED BY (signup_date DESC)
STORED AS PARQUET;

功能：创建按user_id分4个桶并按注册日期降序排序的Parquet表，优化查询性能。

4. 自定义SerDe和存储格式

CREATE TABLE apache_logs (
  host STRING,
  identity STRING,
  user STRING
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "^([^ ]*) ([^ ]*) ([^ ]*)"
)
STORED AS TEXTFILE;

功能：使用正则表达式解析日志数据，自定义SerDe处理非结构化文本。

5. 事务表（ACID支持）

CREATE TABLE transactions (
  txn_id INT,
  amount DOUBLE,
  txn_time TIMESTAMP
)
CLUSTERED BY (txn_id) INTO 2 BUCKETS
STORED AS ORC
TBLPROPERTIES (
  'transactional'='true', 
  'orc.compress'='SNAPPY'
);

功能：支持ACID事务的ORC表，需分桶并设置事务属性，适用于高并发更新。

6. CTAS（Create Table As Select）

CREATE TABLE high_salary_employees
STORED AS ORC
AS
SELECT * FROM employees WHERE salary > 100000;

功能：通过查询结果创建新表，存储薪资超过100000的员工数据。

7. 复制表结构（LIKE）

CREATE TABLE employees_copy LIKE employees;

功能：复制employees表的结构（不复制数据），包括存储格式和属性。

8. 复杂数据格式（嵌套/集合类型）

CREATE TABLE web_data (
  url STRING,
  metrics MAP<STRING, FLOAT>,
  tags ARRAY<STRING>,
  time TIMESTAMP<