
大数据
文章平均质量分 59
新鲜氧气
这个作者很懒,什么都没留下…
展开
-
spakr 提交任务
-num-executors 24 用于设置Spark作业总共要用多少个Executor进程来执行。--executor-memory 2g :用于设置每个Executor进程的CPU core数量。--executor-cores 2 用于设置每个Executor进程的CPU core数量。--deploy-mode:部署模式(client/cluster)--driver-memory 2g Driver内存。--driver-cores 2 Driver核数。--master:集群地址。原创 2024-01-17 15:40:14 · 614 阅读 · 0 评论 -
spark 关联外部数据
【代码】spark 关联外部数据。原创 2024-01-10 17:43:28 · 383 阅读 · 0 评论 -
spark combineByKey和聚合函数
Spark combineByKey、聚合函数原创 2024-01-10 14:42:35 · 510 阅读 · 0 评论 -
scala匿名函数
scala匿名函数原创 2023-12-27 10:12:32 · 612 阅读 · 0 评论 -
Scala(一)基本类型
这部分跳过,直接使用IDEA进行搭建,和其他编程语言配置差不多。原创 2023-12-25 16:18:42 · 1334 阅读 · 2 评论 -
Hive-high Avaliabl
2、hiveserver2不用直接将hdfs和metastore暴露给用户。如何进行搭建,参照之前hadoop的HA,使用zookeeper完成HA。 4、jdbc的连接方式,可以使用任何语言,方便与应用进行数据交互。 1、在应用端不需要部署hadoop和hive的客户端。 3、有HA机制,解决应用端的并发和负载问题。 hive的搭建方式有三种,分别是。原创 2023-12-22 17:18:37 · 811 阅读 · 0 评论 -
Hive文件存储与压缩
上图展示了一个Parquet文件的内容,一个文件中可以存储多个行组,文件的首位都是该文件的Magic Code,用于校验它是否是一个Parquet文件,Footer length记录了文件元数据的大小,通过该值和文件长度可以计算出元数据的偏移量,文件的元数据中包括每一个行组的元数据信息和该文件存储数据的Schema信息。查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。原创 2023-12-22 17:14:23 · 732 阅读 · 0 评论 -
Hive优化
Hive的存储层依托于HDFS,Hive的计算层依托于MapReduce,一般Hive的执行效率主要取决于SQL语句的执行效率,因此,Hive的优化的核心思想是MapReduce的优化。原创 2023-12-22 17:12:44 · 502 阅读 · 0 评论 -
Hive权限管理
基于存储的授权 - 可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制(例如:列级别、行级别)。基于SQL标准的Hive授权 - 完全兼容SQL的授权模型,推荐使用该模式。hive默认授权 - 设计目的仅仅只是为了防止用户产生误操作,而不是防止恶意用户访问未经授权的数据。原创 2023-12-22 17:10:07 · 1621 阅读 · 0 评论 -
Hive的视图和索引
Hive 中的视图和RDBMS中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条SELECT语句的结果集。视图是纯粹的逻辑对象,没有关联的存储(Hive 3.0.0引入的物化视图除外),当查询引用视图时,Hive可以将视图的定义与查询结合起来,例如将查询中的过滤器推送到视图中。原创 2023-12-22 17:04:49 · 957 阅读 · 0 评论 -
Hive动态分区和分桶
注意: 1、Hive分桶表是对列值取hash值得方式,将不同数据放到不同文件中存储 2、对于hive中每一个表、分区都可以进一步进行分桶 3、由列的hash值除以桶的个数来决定每条数据划分在哪个桶中。原创 2023-12-21 14:36:25 · 521 阅读 · 0 评论 -
Hive参数操作和运行方式
hive的变量可以通过${}方式进行引用,其中system、env下的变量必须以前缀开头。原创 2023-12-20 15:48:45 · 540 阅读 · 0 评论 -
Hive函数
自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) :一进一出 UDAF(User- Defined Aggregation Funcation) :聚集函数,多进一出。 UDTF(User-Defined Table-Generating Functions) :一进多出,如explore()5.1。原创 2023-12-20 15:47:51 · 664 阅读 · 0 评论 -
HiveServer2
1、HiveServer2基本介绍 HiveServer2是一个服务接口,能够允许远程的客户端去执行SQL请求且得到检索结果。HiveServer2的实现,依托于Thrift RPC,是HiveServer的提高版本,它被设计用来提供更好的支持对于open API例如JDBC和ODBC。 HiveServer是一个可选的服务,只允许一个远程的客户端去提交请求到hive中。(目前已被淘汰)2、Beeline HiveServer2提供了一种新的命令行接口,可以提交执行SQL语句。原创 2023-12-20 15:21:28 · 1053 阅读 · 0 评论 -
Hive Serde
1、hive主要用来存储结构化数据,如果结构化数据存储的格式嵌套比较复杂的时候,可以使用serde的方式,利用正则表达式匹配的方法来读取数据,例如,表字段如下:id,name,map<string,array<map<string,string>>> Hive Serde用来做序列化和反序列化,构建在数据存储和执行引擎之间,对两者实现解耦。不希望数据显示的时候包含[]或者"",此时可以考虑使用serde的方式。原创 2023-12-20 14:46:01 · 573 阅读 · 0 评论 -
hive DML
/* 从查询语句中获取数据插入某张表 语法: Standard syntax: INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement; INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val原创 2023-12-19 18:07:22 · 585 阅读 · 0 评论 -
hadoop集群基础环境搭建
etc/selinux/config中将SELINUX=enforcing改成SELINUX=disabled即可。原创 2023-12-11 09:43:43 · 751 阅读 · 0 评论 -
sacal简介
Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。它也能运行于CLDC配置的Java ME中。目前还有另一.NET平台的实现,不过该版本更新有些滞后。Scala的编译模型(独立编译,动态类加载)与Java和C#一样,所以Scala代码可以调用Java类库(对于.NET实现则可调用.NE...原创 2019-06-07 23:14:19 · 2426 阅读 · 0 评论 -
Scala安装与配置
1、安装Scala需要Java运行时库,安装Scala需要首先安装JVM虚拟机,推荐安装JDK1.8。在http://www.scala-lang.org/ 下载Scala2.11.8程序安装包根据不同的操作系统选择不同的安装包,下载完成后,将安装包解压到安装目录。注意:安装时,安装路径中不能含有空格。将scala安装目录下的bin目录加入到PATH环境变量:SCALA...原创 2019-06-07 23:38:28 · 466 阅读 · 0 评论 -
hadoop 1.x启动停止三种方式
1.hadoop 1.x启动停止三种方式:1)第一种方式:分别启动hdfs和mapReduce,命令如下启动:调用hadoop bin目录下脚本start-dfs.shstart-mapred.sh停止:stop-dfs.shstop-dfs.sh 2)第二种方式:全部启动和停止启动:start-all.sh启动顺序:NameNode、DataN...原创 2019-06-06 23:44:38 · 216 阅读 · 0 评论