
大数据之hive
文章平均质量分 72
深入kafka
准备方向:大数据开发
展开
-
Sampling采样与Virtual Columns虚拟列
1.大数据体系下,在真正的企业环境中,很容易出现很大的表,比如体积达到 TB 级别.对这种表一个简单的 SELECT * 都会非常的慢,哪怕 LIMIT 10 想要看 10 条数据,也会走 MapReduce 流程。num(K|M|G) 表示抽取 num 大小的数据,单位可以是 K 、 M 、 G 表示 KB 、 MB 、 GB。虚拟列是 Hive 内置的可以在查询语句中使用的特殊标记,可以查询数据本身的详细参数。虚拟列的作用:更精准的查看到具体每一条数据在存储上的详细参数细节。原创 2024-10-27 19:54:53 · 799 阅读 · 0 评论 -
正则表达式
总结:UNION 关键字的作用:将多个 SELECT 的结果集合并成一个, 多个 SELECT 的结果集需要架构一致,否则无法合并,自带去重效果,如果无需去重,需要使用 UNION ALL。SELECT * FROM orders WHERE useraddress RLIKE '.*广东.*';1.正则表达式是一种规则集合,通过特定的规则字符描述,来判断字符串是否符合规则。UNION 用于将多个 SELECT 语句的结果组合成单个结果集。查找手机号符合: 188****0*** 规则。原创 2024-10-27 19:33:27 · 580 阅读 · 0 评论 -
hive查询语句
方式1:select * from w_1026.orders where (SELECT max(totalmoney) FROM w_1026.orders where useraddress like '%广东省%');orderStatus tinyint COMMENT ' 订单状态 -3: 用户拒收 -2: 未付款的订单 -1 :用户取消 0: 待发货 1: 配送中 2: 用户确认收货 ',isPay tinyint COMMENT ' 是否支付 0: 未支付 1: 已支付 ',原创 2024-10-26 21:27:13 · 964 阅读 · 0 评论 -
复杂类型map与struct
导入数据:load data local inpath '/home/wtk/data_for_struct_type.txt' into table test_struct;数据导入:load data local inpath '/home/wtk/data_for_map_type.txt' into table test_map;# 查询全部 map 的 key ,使用 map_keys 函数,结果是 array 类型。查询:select * from test_map;原创 2024-10-26 20:36:00 · 406 阅读 · 0 评论 -
hive修改表操作与array类型
导入数据:load data local inpath '/home/wtk/data_for_array_type.txt' into table test_array;如: ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comment);删除分区:ALTER TABLE tablename DROP PARTITION (month='201105');-- 查询 location 数组中元素的个数。原创 2024-10-26 19:23:22 · 893 阅读 · 0 评论 -
分区表与分桶表
在 hive 当中也是支持这种思想的,就是我们可以把大的数据,按照每天,或者每小时进行切分成一个个的小的文件,这样去操作小的文件就会容易。前言:在大数据中,最常用的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个小的文件就会很容易。桶表的数据加载,由于桶表的数据加载通过 load data 无法执行,只能通过 insert select.但和分区不同,分区是将表拆分到不同的子文件夹中进行存储,而分桶是将表拆分到固定数量的不同文件中进行存储。查看:hdfs,发现目前是空的。原创 2024-10-25 21:17:28 · 571 阅读 · 0 评论 -
数据导入导出
命令:load data local inpath '/home/wtk/search_log.txt' into table test_load;操作:insert into myhive.test_load1 (select * from test_load);注意,基于 HDFS 进行 load 加载数据,源数据文件会消失(本质是被移动到表所在的目录中)注意事项:使用 LOAD 语句:• 数据来源本地,本地数据文件会保留,本质是本地文件上传到表里。数据加载 - INSERT SELECT 语法。原创 2024-10-24 21:04:04 · 914 阅读 · 0 评论 -
hive数据库,表操作
内部表又称管理表 , 内部表数据存储的位置由hive.metastore.warehouse.dir 参数决定(默认: /user/hive/warehouse ),删除内部表会直接删除元数据( metadata )及存储数据,因此内部表不适合和其他工具共享数据。被 external 关键字修饰的即是外部表, 即关联表。数据存储的不同也代表了这个表在理念是并不是Hive 内部管理的,而是可以随意临时链接到外部数据上的。所以,在删除外部表的时候, 仅仅是删除元数据(表的信息),不会删除数据本身。原创 2024-10-23 21:30:04 · 1045 阅读 · 0 评论 -
hiveserver与beeline
Beeline 是 JDBC 的客户端,通过 JDBC 协议和 Hiveserver2 服务进行通信,协议的地址是: jdbc:hive2://node1:10000。在启动 Hive的时候,除了必备的 Metastore服务外,bin/hive --service hiveserver2可以启动hive。在 hive 安装的服务器上,首先启动 metastore 服务,然后启动 hiveserver2 服务。bin/hive --service metastore ,启动的是元数据管理服务。原创 2024-10-22 21:30:24 · 428 阅读 · 0 评论 -
hive初体验
二:插入数据:INSERT INTO test VALUES(1,'王力红','男'),(2,'周杰轮','男' ),(3,'林志灵','女');一:创建表:CREATE TABLE test(id INT, name STRING, gender STRING);注意:Hive 的数据存储在 HDFS 的: /user/hive/warehouse 中。打开 YARN 的 WEB UI 页面查看任务情况: http://node1:8088。1.首先,确保启动了Metastore服务。原创 2024-10-22 21:23:15 · 315 阅读 · 0 评论 -
大数据之hive(分布式SQL计算工具)加安装部署
解压:命令: tar -zxvf /export/server/apache-hive-4.0.1-bin.tar.gz -C /export/server/设置软连接:ln -s /export/server/apache-hive-4.0.1-bin /export/server/hive。:SQL解析器:功能: SQL分析,SQL到MapReduce程序的转换,提交MapReduce程序运行并收集执行结果.命令: mv hive-env.sh.template hive-env.sh。原创 2024-10-21 21:35:54 · 2872 阅读 · 0 评论