korry24-优快云博客

原创关于spark在yarn上运行时候内存的介绍

driver内存，executor内存，堆内存，对外内存

2025-03-27 11:01:50 909

原创 Linux常用命令

通过掌握这些常用命令，可以高效地管理和操作 Linux 系统。如果需要更详细的帮助，可以使用。：显示目录或文件的磁盘使用情况。：创建空文件或更新文件时间戳。：移动或重命名文件或目录。：实时显示系统进程信息。：解压缩 ZIP 文件。：根据进程名终止进程。

2025-02-10 15:33:31 511

Hive 数据仓库分层和数据建模是一种常见的数据仓库设计方法，旨在通过分层的方式组织数据，提高数据的可维护性、可复用性和查询性能。数据仓库通常采用分层架构，目的是将数据按照不同的处理阶段和用途进行划分，便于管理和优化。通过合理的分层和建模，可以构建高效、可扩展的 Hive 数据仓库，满足业务需求并提升数据分析效率。数据建模是设计数据仓库的核心步骤，常见的建模方法包括。：对数据进行分桶，优化 JOIN 和聚合操作。：按时间或业务字段分区，提高查询效率。：减少存储空间和 I/O 开销。：提高存储和查询性能。

2025-02-10 14:47:27 1491

原创 shell加减乘除运算

以上两种方法可以实现shell中的加减乘除运算，运算符两边有没有有没有空格都可以正常计算，但是不能进行小数的运算。

2024-12-19 16:19:18 412

原创 java算法刷题基础知识汇总（持续更新中）

【代码】java算法刷题基础知识汇总。

2024-06-19 16:19:17 479 1

原创 spark并行度(parallelism)和分区(partition)未生效的问题

spark的并行度对spark的性能是又很大的影响的，spark任务能快速计算主要就是因为内存计算和并行计算。对于并行计算，我们就要涉及到并行度的问题，那并行度跟什么有关系呢？

2023-04-20 17:25:52 1660

原创 Spark通过jdbc性能调优--采用分区的方式从oracle读数据

采用ROWID的最后一位的ASCII码对20进行取模，得到的模是0-19之间的，这样就可以将这个值作为分区键，每条数据记录将会划分到固定的分区。因为分区数是20，所以在oracle数据里面就会生成20条SQL，每条sql又一个excutor取读取。常规jdbc读取表的时候只有一个分区在执行，也就是只有一个excutor在工作，没有把spark并行操作的特性发挥出来。通过查阅sparksql官方文档，查阅到如下的jdbc操作数据库的连接属性。所以我们可以采取上表中所示的分区读表的方式来优化这个问题。

2023-04-10 17:14:30 2117

原创 sparksql数值类型排序乱序

sparksql数值排序未生效

2023-04-03 10:03:25 880

原创大数据面试技术点总结

大数据面试题，hadoop，mysql，hive，spark，kafka，hbase，flink

2023-03-31 11:05:23 1374

原创 hivesql行转列和列转行

hivesql行转列和列转行。

2023-03-13 11:31:11 3186

原创拉链表的另类尝试，存档历史数据

数据库，拉链表

2022-10-08 17:31:28 536

原创 spark 算子内部引用sparkSession对象报java.lang.NullPointerException解决方法

spark算子内部引用sparkSession对象报空指针异常

2022-09-06 17:33:24 2343

原创 scala单例模式代码实现

scala 单例模式，带参数不带参数

2022-08-17 16:30:45 233

原创 RSA加密解密算法代码实现【scala&java】

RSA加密 java scala

2022-08-12 15:13:54 1577

原创 spark on yarn运行日志查看

spark日志信息查看，shell提交spark程序写出日志信息到指定路径

2022-08-11 17:32:09 5064

原创 Git介绍，安装与使用

Git是什么‌：Git是一个免费、开源的分布式版本控制系统，用于高效地处理任何大小项目的版本管理。安装Git‌：访问Git官网下载对应操作系统的安装程序。按照安装向导完成安装。在终端或命令提示符中输入git --version来验证安装是否成功。git initgit statusgit add <文件名>或git add .git commit -m "提交信息"git branchgit branch <分支名>git checkout <分支名>

2021-10-22 10:57:14 163

原创 mysql批量删除表

mysql批量删除表查询构建所有的删除语句SELECT CONCAT('drop table ',table_name,';')FROM information_schema.TABLESWHERE table_name LIKE 'fine_%';复制查出来的删除sql语句，并批量执行drop table QRTZ_BLOB_TRIGGERS;drop table QRTZ_CALENDARS;drop table QRTZ_CRON_TRIGGERS;drop table

2021-10-13 09:25:53 2065

原创 MySQL批量插入数据 ON DUPLICATE KEY UPDATE

INSERT INTO … ON DUPLICATE KEY UPDATE向student表中插入学生信息，如果student表已经存在该id，那么就将该id对应姓名更新；如果不存在该id，那么插入新的一行记录；insert into student(id,name) values(3,'kobe'),(4,'Curry') ON DUPLICATE KEY UPDATE name=values(name)insert into student(id,name) select id,name

2021-09-27 18:15:36 500

原创 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

FAILED: Execution Error, return code 137 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTaskFAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask# java.lang.OutOfMemoryError: Java heap space# -XX:OnOutOfMemoryE

2021-09-26 11:10:02 1298

原创 Linux系统Redis安装详解

1，下载安装包下载地址：http://download.redis.io/releases/redis-3.0.4.tar.gz直接点击连接即可进行下载2、安装1.下载好安装包之后，将安装包上传至Linux指定目录下、：/opt/softwawre/tempRedis2.由于redis是由C语言编写的，它的运行需要C环境，因此我们需要先安装gcc。安装命令如下：[root@hadoop100 software]# yum install -y gcc3.解压安装包[root@no

2021-06-25 14:39:09 253 2

原创 SparkStream详解

SparkStream1、项目实例，从linux传输数据2、使用sparkStream读取kafka的数据，进行处理，再写回kafka1、项目实例，从linux传输数据新建maven项目，并导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version&g

2021-06-22 20:03:13 755

原创 azkaban的安装、配置与使用详解

azkaban的安装、配置与使用1、下载安装包并编译2、MySQL创建azkaban数据库和用户3、配置azkaban-exec4、配置azkaban-web1、下载安装包并编译1.下载如下软件安装包，上传至虚拟机并解压gradle-5.6.3-all.zipazkaban-3.84.10.tar.gz tmp[root@hadoop100 software]# tar -zxvf azkaban-3.84.10.tar.gz[root@hadoop100 software]# unzip g

2021-06-21 20:13:39 4158 1

原创 wget安装MySQL（5.6和5.7超详细版）

wget安装MySQLwget的安装与使用安装wget：yum -y install wget检查是否安装成功：rpm -qa|grep "wget"MySQL安装1.下载mysql源安装包：wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm2.安装mysql源：yum localinstall mysql57-community-release-el7-8.noarch.rpm3.检查mysql源

2021-06-21 11:22:14 10059

原创 mongodb安装配置与基本命令

1、mongodb安装与配置下载安装包：mongodb-linux-x86_64-rhel70-4.0.24.tgz将安装包放在指定路径（/opt/software），直接解压安装，并且改名tar -zxvf mongodb-linux-x86_64-rhel70-4.0.24.tgzmv mongodb-linux-x86_64-rhel70-4.0.24 mongodb进入mongodb目录新建数据库目录 ./data/db新建日志目录 ./log新建文件mongo.conf，

2021-06-04 14:39:10 218 1

原创 Java实现WordCount(多线程和单线程)

1、单线程实现WordCountpackage cn.kgc.kb11.wc;import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.Iterator;import java.util.Map;import java.util.Set;import java.util.Tr

2021-06-03 19:32:59 671

原创 flume安装配置与原理

1、flume的安装下载flume，解压安装flume-ng-1.6.0-cdh5.14.0.tar.gz修改配置文件cd /opt/software/flume/confmv flume-env.sh.template flume-env.shvi flume-env.sh修改如下的内容在如下位置加入jdk的路径和给flume分配的内存大小2、flume的简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用

2021-05-24 18:32:04 347 3

原创 Kafka安装与集群搭建&基本命令&API

1、安装与集群搭建下载并解压安装软件kafka_2.11-2.0.0.tgz1.1、配置单机修改配置文件vi opt/software/kafka/config/server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://192.168.153.141:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=192.168.153.141:2181

2021-05-21 17:35:50 115

原创 scala安装与配置（详细步骤）

scala安装与配置一、window系统安装Scala1.下载安装2.配置环境变量3.验证二、window系统安装Scala三、IDEA安装scala插件一、window系统安装Scala1.下载安装首先去官网http://www.scala-lang.org/，然后点击导航栏的DOWNLOAD，进入下载链接：http://www.scala-lang.org/download/直接点击上面的按钮下载Windows安装包。msi格式，可以直接安装，然后双击运行，直至安装成功，此时查看环境变量会发现

2021-04-22 14:33:06 17195 4

原创 Hive函数

hive函数1. Hive函数分类1.1 从输入输出角度分类1.2 从实现方式分类1.3 具体函数2. hive性能调优2.1 Hive性能调优工具2.2 Hive优化设计2.3 Job优化2.4 查询优化2.5 压缩算法1. Hive函数分类1.1 从输入输出角度分类标准函数：一行数据中的一列或多列为输入，结果为单一值聚合函数：多行的零列到多列为输入，结果为单一值表生成函数：零个或多个输入，结果为多列或多行1.2 从实现方式分类内置函数标准函数①字符函数②类型转换函数③数学函

2021-04-08 15:10:23 332

原创 Hive的UDF步骤

Hive的UDF步骤新建一个maven project下载依赖写Java程序maven下面bin的安装路径/mvn clean 清空之前的jar包 maven下面bin的安装路径/install 打jar包hive中创建函数方式1：将jar包上传至Hadoop，放到指定目录中，如：/opt/data/hive中添加jar包add jar /opt/data/myUDF-1.0-SNAPSHOT.jar; //jar包地址list jar; 可以查看j

2021-04-06 16:49:32 412

原创 hive基础与高级查询

hive基础与高级查询1.数据库和数据仓库1.1 数据仓库1.2 数据库和数据仓库的区别1.3 数据仓库的分层架构2.Hive2.1 Hive的基本概念2.2 Hive元数据管理2.3 hive的命令窗口模式2.4 hive的数据类型2.5 数据库与数据表2.6 建表语句2.7 hive 分区2.8 分桶2.9 Hive视图（Views）2.10 装载数据2.11 Hive数据排序2.12 聚合函数2.13 窗口函数1.数据库和数据仓库1.1 数据仓库什么是数据仓库数据仓库（Data Wareho

2021-04-04 12:54:31 666

空空如也

空空如也