- 博客(10)
- 资源 (1)
- 收藏
- 关注
转载 spark 提供的几种落表HIVE方式 insertInto() saveAsTable()
1 insertInto()保存DataFrame数据到指定hive表中,但要求满足以下两点:指定的hive表是存在的; DataFrame的schema结构顺序与指定Hive表的schema结构顺序是一致的保存DataFrame数据到指定hive表中。分两种情况:表已经存在和表不存在2 saveAsTable()如果表不存在,则会自动创建表结构。如果表已经存在,则此函数的行为取决于由mode函数指定的保存模式(默认情况下抛出异常)。a.mode=Overwrite时,.
2022-01-30 10:02:27
2990
原创 spark 分区 和 并行度
1Spark job中最小执行单位为task 一个rdd有分区组成,这是rdd五大特性之一2一个分区就是task 参考spark.default.parallelism的参数配置3参数numPartitions来显示指定分区数 groupByKey(numPartitions: Int)4加载HDFS上的数据生成的RDD,它的分区数由InputFormat切分机制决定, block块对应一个分区5通常,RDD的分区数与其所依赖的RDD的分区数相同,除非shuffle6增加分区用repar
2022-01-15 21:20:24
1306
转载 spark sql 去重 distinct dropDuplicates
spark sql distinct dropDuplicates
2022-01-06 15:55:08
2609
2
原创 安装elasticsearch 7.13.1
1 上传解压,配置环境变量自己去华为开源镜像下载安装包华为开源镜像站_软件开发服务_华为云# 上传到/usr/local/soft/目录下tar -xvf elasticsearch-7.13.1-linux-x86_64.tar.gz -C /usr/local/softvim /etc/profile2、修改配置文件elasticsearch.ymlvim config/elasticsearch.yml# 找到network修改为如下n...
2021-11-13 15:03:46
1223
原创 linux搭建azkaban
1 HBase介绍1 HBase是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库2 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务3 用来存储非结构画和半结构化的松散数据(NoSQL)2 Hadoop生态系统...
2021-10-24 13:22:10
242
原创 HIVE 的安装和使用
Hive的安装和使用 我们的版本约定: JAVA_HOME=/usr/local/soft/jdk1.8.0_171 HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 HIVE_HOME=/usr/local/soft/hive-1.2.1 一、离线安装MySQL(已经安装过MySQL可以跳过此步骤)1、查看mysql的依赖 rpm -qa | grep mysql2、删除mysql的依赖 rp...
2021-09-05 17:37:08
243
原创 zookeeper搭建
1、上传安装包到master并解压tar -xvf zookeeper-3.4.6.tar.gz2、配置环境变量vim /etc/profileexport ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.4.6export PATH=$PATH:$ZOOKEEPER_HOME/binsource /etc/profile3、修改配置文件cd confcp zoo_sample.cfg zoo.cfg修改.
2021-09-05 17:28:53
88
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人