
hadoop
文章平均质量分 61
test
新鲜氧气
这个作者很懒,什么都没留下…
展开
-
Spark累加器LongAccumulator
1.Accumulator是由Driver端总体进行维护的,读取当前值也是在Driver端,各个Task在其所在的Executor上也维护了Accumulator变量,但只是局部性累加操作,运行完成后会到Driver端去合并累加结果。2、不改变Spark作业懒执行的特点,即没有action操作触发job的情况下累加器的值有可能是初始值。1、只会累加,合并即累加;原创 2024-01-24 16:30:54 · 869 阅读 · 0 评论 -
Scala安装
scala详细安装步骤原创 2023-12-25 16:33:49 · 671 阅读 · 0 评论 -
Hive-high Avaliabl
2、hiveserver2不用直接将hdfs和metastore暴露给用户。如何进行搭建,参照之前hadoop的HA,使用zookeeper完成HA。 4、jdbc的连接方式,可以使用任何语言,方便与应用进行数据交互。 1、在应用端不需要部署hadoop和hive的客户端。 3、有HA机制,解决应用端的并发和负载问题。 hive的搭建方式有三种,分别是。原创 2023-12-22 17:18:37 · 811 阅读 · 0 评论 -
Hive文件存储与压缩
上图展示了一个Parquet文件的内容,一个文件中可以存储多个行组,文件的首位都是该文件的Magic Code,用于校验它是否是一个Parquet文件,Footer length记录了文件元数据的大小,通过该值和文件长度可以计算出元数据的偏移量,文件的元数据中包括每一个行组的元数据信息和该文件存储数据的Schema信息。查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。原创 2023-12-22 17:14:23 · 733 阅读 · 0 评论 -
Hive优化
Hive的存储层依托于HDFS,Hive的计算层依托于MapReduce,一般Hive的执行效率主要取决于SQL语句的执行效率,因此,Hive的优化的核心思想是MapReduce的优化。原创 2023-12-22 17:12:44 · 502 阅读 · 0 评论 -
Hive权限管理
基于存储的授权 - 可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制(例如:列级别、行级别)。基于SQL标准的Hive授权 - 完全兼容SQL的授权模型,推荐使用该模式。hive默认授权 - 设计目的仅仅只是为了防止用户产生误操作,而不是防止恶意用户访问未经授权的数据。原创 2023-12-22 17:10:07 · 1623 阅读 · 0 评论 -
Hive的视图和索引
Hive 中的视图和RDBMS中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条SELECT语句的结果集。视图是纯粹的逻辑对象,没有关联的存储(Hive 3.0.0引入的物化视图除外),当查询引用视图时,Hive可以将视图的定义与查询结合起来,例如将查询中的过滤器推送到视图中。原创 2023-12-22 17:04:49 · 957 阅读 · 0 评论 -
Hive动态分区和分桶
注意: 1、Hive分桶表是对列值取hash值得方式,将不同数据放到不同文件中存储 2、对于hive中每一个表、分区都可以进一步进行分桶 3、由列的hash值除以桶的个数来决定每条数据划分在哪个桶中。原创 2023-12-21 14:36:25 · 521 阅读 · 0 评论 -
Hive参数操作和运行方式
hive的变量可以通过${}方式进行引用,其中system、env下的变量必须以前缀开头。原创 2023-12-20 15:48:45 · 540 阅读 · 0 评论 -
Hive函数
自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) :一进一出 UDAF(User- Defined Aggregation Funcation) :聚集函数,多进一出。 UDTF(User-Defined Table-Generating Functions) :一进多出,如explore()5.1。原创 2023-12-20 15:47:51 · 664 阅读 · 0 评论 -
HiveServer2
1、HiveServer2基本介绍 HiveServer2是一个服务接口,能够允许远程的客户端去执行SQL请求且得到检索结果。HiveServer2的实现,依托于Thrift RPC,是HiveServer的提高版本,它被设计用来提供更好的支持对于open API例如JDBC和ODBC。 HiveServer是一个可选的服务,只允许一个远程的客户端去提交请求到hive中。(目前已被淘汰)2、Beeline HiveServer2提供了一种新的命令行接口,可以提交执行SQL语句。原创 2023-12-20 15:21:28 · 1053 阅读 · 0 评论 -
Hive Serde
1、hive主要用来存储结构化数据,如果结构化数据存储的格式嵌套比较复杂的时候,可以使用serde的方式,利用正则表达式匹配的方法来读取数据,例如,表字段如下:id,name,map<string,array<map<string,string>>> Hive Serde用来做序列化和反序列化,构建在数据存储和执行引擎之间,对两者实现解耦。不希望数据显示的时候包含[]或者"",此时可以考虑使用serde的方式。原创 2023-12-20 14:46:01 · 573 阅读 · 0 评论 -
hive DML
/* 从查询语句中获取数据插入某张表 语法: Standard syntax: INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement; INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val原创 2023-12-19 18:07:22 · 585 阅读 · 0 评论 -
运行官方实例
hadoop2.x官方实例运行原创 2023-12-11 16:31:05 · 405 阅读 · 0 评论 -
hadoop 1.x启动停止三种方式
1.hadoop 1.x启动停止三种方式:1)第一种方式:分别启动hdfs和mapReduce,命令如下启动:调用hadoop bin目录下脚本start-dfs.shstart-mapred.sh停止:stop-dfs.shstop-dfs.sh 2)第二种方式:全部启动和停止启动:start-all.sh启动顺序:NameNode、DataN...原创 2019-06-06 23:44:38 · 216 阅读 · 0 评论