Hive和YDB的sql语句

本文介绍YDB与Spark之间的数据交互过程,包括如何创建YDB表、映射表及外部表,并演示了数据导入与查询操作。

YDB的数据类型


| YDB类型 | Hive类型 | 注解 |

| :------- | --------:| :--: |

| String | String | 字符串|

| haoma | String | 用于对号码类型的模糊检索 |

| tint | int | 整形32|

| tlong | bigint | 整形64位|

| tdouble | double | double类型,浮点型|

| tfloat | float | 小数|

首先需要在ydbweb页面中创建ydb的表,该表为YDB的原始表,创建后可以使用YDB原生的基本查询,

SPARK中还不能直接使用。

示例如下

打开 http://ycloudtest:1210并打开创建数据表连接

create table ydb_example_shu(

phonenum long,

usernick string,

ydb_sex string,

ydb_province string,

ydb_grade string,

ydb_age string,

ydb_blood string,

ydb_zhiye string,

ydb_earn string,

ydb_prefer string,

ydb_consume string,

ydb_day string,

amtdouble tdouble,

amtlong int,

content textcjk

)



该表的作用是用于对接YDBSPARK,只有创建了该表才能将Spark中的其他表,通过insert方式导入到YDB总,当然如果我们的YDB数据是通过kafka导入的,则不需要创建

CREATE external table ydb_example_shu(

 phonenum bigint, usernickstring, ydb_sexstring,  ydb_province string, ydb_grade string, ydb_age string, ydb_blood string, ydb_zhiye string, ydb_earn string, ydb_prefer string, ydb_consume string, ydb_day string, amtdouble double,amtlong int, content string, ydbpartion string, ya100_pipe string

)

STORED BY 'cn.net.ycloud.ydb.handle.Ya100StorageHandler'

TBLPROPERTIES(

"ya100.handler.table.name"="ydb_example_shu",

"ya100.handler.master"="ydb.zookeeper.mode",

"ya100.handler.columns.mapping"="phonenum,usernick,ydb_sex,ydb_province,ydb_grade,ydb_age,ydb_blood,ydb_zhiye,ydb_earn,ydb_prefer,ydb_consume,ydb_day,amtdouble,amtlong,content,ydbpartion,ya100_pipe"

);


创建外部表

CREATE external  table ydb_import_txt( 
phonenum string, usernick string, ydb_sex string, ydb_province string, ydb_grade string, ydb_age string, ydb_blood string, ydb_zhiye string, ydb_earn string, ydb_prefer string, ydb_consume string, ydb_day string, amtdouble double,amtlong bigint,content string
)
row format delimited fields terminated by ',' 
 stored as INPUTFORMAT 'cn.net.ycloud.ydb.handle.Ya100FixNumCombineTextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' 
 location '/data/example/ydb';


创建映射表

CREATE external  table ydb_example_shu( 
 phonenum string, usernick string, ydb_sex string,  ydb_province string, ydb_grade string, ydb_age string, ydb_blood string, ydb_zhiye string, ydb_earn string, ydb_prefer string, ydb_consume string, ydb_day string, amtdouble double,amtlong bigint, content string, ydbpartion string, ya100_pipe string
)
STORED BY 'cn.net.ycloud.ydb.handle.Ya100StorageHandler'
TBLPROPERTIES(
"ya100.handler.table.name"="ydb_example_shu",
"ya100.handler.master"="ydb.zookeeper.mode",
"ya100.handler.columns.mapping"="phonenum,usernick,ydb_sex,ydb_province,ydb_grade,ydb_age,ydb_blood,ydb_zhiye,ydb_earn,ydb_prefer,ydb_consume,ydb_day,amtdouble,amtlong,content,ydbpartion,ya100_pipe"
);


追加数据到映射表

insert into  table ydb_example_shu select *,'3000w','' from ydb_import_txt;


查询等...

查询语句有几种类型 Hive的

count计数,需要创建一个r[0]的数组定义类型,as别名,

sum求和,需要创建一个r[0]的数组定义类型,as别名,

avg求平均数

查询语句YDB的

and类型,(or),(to)。


### 回答1: OracleHive SQL语句有一些相似之处,但也有一些不同之处。 相似之处: 1. 语法:OracleHive SQL语句的语法都是基于SQL标准的,因此它们有很多相似之处。 2. 数据类型:OracleHive SQL语句都支持常见的数据类型,如整数、浮点数、字符串等。 3. 聚合函数:OracleHive SQL语句都支持聚合函数,如SUM、AVG、MAX、MIN等。 不同之处: 1. 分区:Hive SQL语句支持分区,可以将数据按照某个字段进行分区,提高查询效率。而Oracle没有这个功能。 2. 数据类型:Hive SQL语句支持更多的数据类型,如数组、结构体等,而Oracle不支持。 3. 执行引擎:OracleHive SQL语句的执行引擎不同,Oracle使用的是传统的关系型数据库引擎,而Hive使用的是基于Hadoop的MapReduce引擎。 总的来说,OracleHive SQL语句都有各自的优缺点,需要根据具体的需求来选择使用哪种语句。 ### 回答2: OracleHive SQL是两种不同的数据库管理系统,它们各有优点劣势,在处理大数据的时候有着不同的比较。下面将从各个方面来比较它们的优劣。 一、数据类型的支持 Oracle支持的数据类型较为丰富,包括基本的整型、字符型、日期型,还有二进制大对象等复杂数据类型,在数据处理的时候更为灵活,支持更多的应用场景。 而Hive SQL在数据类型的支持上相对较少,主要支持整型、浮点型、字符串、日期等基本数据类型,不支持复杂的二进制对象。 二、数据分析功能 Oracle在数据分析方面有着强大的功能,支持窗口函数、分析函数、统计函数等高级分析功能。它可以快速的进行数据分析处理。 而Hive SQL在数据分析方面相对较弱,主要支持基本的数据分析功能,但是由于它的数据存储方式是分布式的,可以通过MapReduce来处理更大的数据集。 三、性能方面 Oracle在性能方面表现良好,在多用户的高并发情况下也有着出色的表现。通过多线程的方式处理大量数据,在响应速度数据处理能力上都比较强。 而Hive SQL在性能方面较为一般,在处理大量数据时需要较长的时间较大的计算资源。但是它的分布式存储方式可以保证数据的并发性容错性。 四、编程接口 Oracle支持多种编程语言,比如Java、C++、Python等,而Hive SQL主要使用HiveQL语言,也可以通过JavaPython等编程语言来操作Hive。 总的来说,OracleHive SQL各有优点,在不同的场景下选择适合自己的工具才是最佳的选择。如果你要处理的数据较为复杂,需要进行高级的数据分析,可以选择Oracle数据库;如果你需要处理的是大量分布式的数据,可以选择Hive SQL。 ### 回答3: OracleHive SQL是两种不同的数据库管理系统,它们都有自己的优点缺点,也可以根据不同的需求进行选择。 Oracle是一种商业化的数据库管理系统,它具有强大的性能扩展性,可以支持非常大规模的数据处理存储。Oracle可以通过多种方式进行访问管理,包括命令行、Web界面、可视化工具等等。它还提供了非常强大的安全性可靠性,可以处理高并发的各种数据库操作。另外,Oracle也有非常广泛的使用场景,是传统企业数据管理的首选之一。 相比之下,Hive SQL主要是为大数据处理而设计的,它可以将数据存储在Hadoop分布式文件系统中,通过MapReduce进行处理。Hive SQL可以使用类SQL语法来进行数据分析查询,非常适合于处理非结构化数据大规模的数据集。Hive SQL还具有较低的成本高可伸缩性,可以扩展到数百万个节点,可以运行在云环境中。 总体来说,OracleHive SQL都是非常强大、成熟的数据库管理系统,它们提供了不同的功能使用场景。对于处理传统企业数据的场景,Oracle是更为合适的选择。如果需要处理大规模的非结构化数据集,或者需要在云环境中运行,那么Hive SQL则是更好的选择。不过,这并不是绝对的答案,具体选择还需要根据实际需求进行权衡评估。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值