自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 gitlab 安装

gitlab 安装

2023-01-07 21:39:13 326

原创 PySpark入门

pyspark

2022-07-25 12:57:31 352

转载 spark 提供的几种落表HIVE方式 insertInto() saveAsTable()

1 insertInto()保存DataFrame数据到指定hive表中,但要求满足以下两点:指定的hive表是存在的; DataFrame的schema结构顺序与指定Hive表的schema结构顺序是一致的保存DataFrame数据到指定hive表中。分两种情况:表已经存在和表不存在2 saveAsTable()如果表不存在,则会自动创建表结构。如果表已经存在,则此函数的行为取决于由mode函数指定的保存模式(默认情况下抛出异常)。a.mode=Overwrite时,.

2022-01-30 10:02:27 2990

原创 spark 分区 和 并行度

1Spark job中最小执行单位为task 一个rdd有分区组成,这是rdd五大特性之一2一个分区就是task 参考spark.default.parallelism的参数配置3参数numPartitions来显示指定分区数 groupByKey(numPartitions: Int)4加载HDFS上的数据生成的RDD,它的分区数由InputFormat切分机制决定, block块对应一个分区5通常,RDD的分区数与其所依赖的RDD的分区数相同,除非shuffle6增加分区用repar

2022-01-15 21:20:24 1306

转载 spark sql 去重 distinct dropDuplicates

spark sql distinct dropDuplicates

2022-01-06 15:55:08 2609 2

原创 安装elasticsearch 7.13.1

1 上传解压,配置环境变量自己去华为开源镜像下载安装包华为开源镜像站_软件开发服务_华为云# 上传到/usr/local/soft/目录下tar -xvf elasticsearch-7.13.1-linux-x86_64.tar.gz -C /usr/local/softvim /etc/profile2、修改配置文件elasticsearch.ymlvim config/elasticsearch.yml# 找到network修改为如下n...

2021-11-13 15:03:46 1223

原创 linux搭建azkaban

1 HBase介绍1 HBase是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库2 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务3 用来存储非结构画和半结构化的松散数据(NoSQL)2 Hadoop生态系统...

2021-10-24 13:22:10 242

原创 HIVE 的安装和使用

Hive的安装和使用 我们的版本约定: JAVA_HOME=/usr/local/soft/jdk1.8.0_171 HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 HIVE_HOME=/usr/local/soft/hive-1.2.1 一、离线安装MySQL(已经安装过MySQL可以跳过此步骤)1、查看mysql的依赖 rpm -qa | grep mysql2、删除mysql的依赖 rp...

2021-09-05 17:37:08 243

原创 zookeeper搭建

1、上传安装包到master并解压tar -xvf zookeeper-3.4.6.tar.gz2、配置环境变量vim /etc/profileexport ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.4.6export PATH=$PATH:$ZOOKEEPER_HOME/binsource /etc/profile3、修改配置文件cd confcp zoo_sample.cfg zoo.cfg修改.

2021-09-05 17:28:53 88

原创 Hadoop集群搭建(分布式版本)

一、准备工作 三台虚拟机:master、node1、node2 时间同步 jdk1.8

2021-09-05 17:17:22 93

微信小程序大作业.zip

期末微信小程序大作业,附带运行视频

2021-07-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除