无风@不起浪-优快云博客

转载 spark 提供的几种落表HIVE方式 insertInto() saveAsTable()

1 insertInto()保存DataFrame数据到指定hive表中，但要求满足以下两点：指定的hive表是存在的; DataFrame的schema结构顺序与指定Hive表的schema结构顺序是一致的保存DataFrame数据到指定hive表中。分两种情况：表已经存在和表不存在2 saveAsTable()如果表不存在，则会自动创建表结构。如果表已经存在，则此函数的行为取决于由mode函数指定的保存模式（默认情况下抛出异常）。a.mode=Overwrite时，.

2022-01-30 10:02:27 3200

原创 spark 分区和并行度

1Spark job中最小执行单位为task 一个rdd有分区组成，这是rdd五大特性之一2一个分区就是task 参考spark.default.parallelism的参数配置3参数numPartitions来显示指定分区数 groupByKey(numPartitions: Int)4加载HDFS上的数据生成的RDD，它的分区数由InputFormat切分机制决定, block块对应一个分区5通常，RDD的分区数与其所依赖的RDD的分区数相同，除非shuffle6增加分区用repar

2022-01-15 21:20:24 1348

转载 spark sql 去重 distinct dropDuplicates

spark sql distinct dropDuplicates

2022-01-06 15:55:08 2757 1

原创安装elasticsearch 7.13.1

1 上传解压，配置环境变量自己去华为开源镜像下载安装包华为开源镜像站_软件开发服务_华为云# 上传到/usr/local/soft/目录下tar -xvf elasticsearch-7.13.1-linux-x86_64.tar.gz -C /usr/local/softvim /etc/profile2、修改配置文件elasticsearch.ymlvim config/elasticsearch.yml# 找到network修改为如下n...

2021-11-13 15:03:46 1276

原创 linux搭建azkaban

1 HBase介绍1 HBase是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库2 利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为其分布式协同服务3 用来存储非结构画和半结构化的松散数据（NoSQL）2 Hadoop生态系统...

2021-10-24 13:22:10 291

原创 HIVE 的安装和使用

Hive的安装和使用我们的版本约定： JAVA_HOME=/usr/local/soft/jdk1.8.0_171 HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 HIVE_HOME=/usr/local/soft/hive-1.2.1 一、离线安装MySQL（已经安装过MySQL可以跳过此步骤）1、查看mysql的依赖 rpm -qa | grep mysql2、删除mysql的依赖 rp...

2021-09-05 17:37:08 272

原创 zookeeper搭建

1、上传安装包到master并解压tar -xvf zookeeper-3.4.6.tar.gz2、配置环境变量vim /etc/profileexport ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.4.6export PATH=$PATH:$ZOOKEEPER_HOME/binsource /etc/profile3、修改配置文件cd confcp zoo_sample.cfg zoo.cfg修改.

2021-09-05 17:28:53 113

原创 Hadoop集群搭建（分布式版本）

一、准备工作三台虚拟机：master、node1、node2 时间同步 jdk1.8

2021-09-05 17:17:22 157

m0_54603030的博客

原创 gitlab 安装

原创 PySpark入门