若叶时代-优快云博客

原创 SQL_语法

SQL:结构化查询语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统.

2025-03-06 10:15:07 1095

Hadoop是一个开发和运行处理大规模数据的软件平台,允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理.Hadoop被抽象成一个分布式操作系统,文件系统是HDFS,操作系统内核是YARN,应用开发框架/规范是MapReduce.①HDFS(分布式文件系统):解决海量数据存储.②YARN(作业调度和集群资源管理的框架):解决资源任务调度.③MapReduce(分布式运算编程框架):解决海量数据计算.

2025-03-05 16:26:39 12

原创 SQL_优化/问题

①分区:筛选并优先筛选分区,区分度大的字段先过滤②列裁剪:读取操作(select、where、join、group by、sort by等),不读取不需要的列,减少IO消耗.③尽量不在筛选字段上使用函数和表达式.

2025-02-26 15:01:52 371

原创任务调度平台

任务调度工具有 Azkaban和海豚调度.

2025-02-20 17:10:04 122

转载 Spark_SparkSQL_参数

spark.sql.crossJoin.enabled=true:控制是否允许 cross join.spark.sql.decimalOperations.allowPrecisionLoss=false:控制在进行小数运算时是否允许精度损失.

2025-02-20 15:45:12 83

原创 SQL_练习

(1) 列拆分为多行把指定字段按指定分隔符进行拆分为多行,然后其它字段直接复制.(2) 行扁平化把同一组的多行数据合并成为一行.(3) 列转行如果数据一列有相同的值，按照指定的字段，将其中一列的字段内容变成不同的列，然后把多行数据转换为一行数据.(4) 行转列把数据字段的字段名转换为一列，把数据行变为数据列.

2024-09-10 16:03:46 439

原创 Hive_数据模型

(2) 数据表: 分为内部表(数据由Hive管理,存储在默认位置,删表会删除数据) 和外部表(被external修饰的,数据存储位置需要指定,删表不会删除数据).(3) 分区:明确指定值(静态分区) 或者指定表的N个字段(动态分区) 作为分区列,对表数据进行划分,每个分区对应一个目录.分区列名不能是表中的列.②表可以同时分区和分桶,当表分区时,每个分区下都会有多个桶,表现为表目录下小文件的个数.(4) 分桶:将数据按某个字段的哈希值进行分割,每个桶对应一个文件.(1) 修改分区名称。

2024-09-10 11:45:16 203

转载 Hive_架构/使用

Hive DDL与DML精要-优快云博客(1) 功能数据定义类命令:用于定义和管理 Hive 数据库对象（如数据库、表、分区等）.数据操作类命令:用于操作 Hive 表中的数据,包括查询、插入、加载和导出.(2) 同步数据①导入数据Load命令可以将HDFS(或本地文件)导入到Hive表.使用load data形式往hive表中装载数据时,则不会检查.如果字段多了则会丢弃,少了则会null值填充.同样如果字段类型不一致,也是使用null值填充.不能用于动态分区.

2024-09-10 11:29:20 91

转载 ETL工具_Kettle_转换

大数据ETL开发之图解Kettle工具入门到精通（附上kettle安装包）

2024-07-04 11:57:13 100

原创数据同步_Sqoop

例如这段是导入 last_modified > '2023-01-02 11:00:00' 的数据。

2023-03-26 23:47:06 87

转载 MySQL_索引

索引是额外的数据结构,对数据库表中一列或多列的值进行排序.使用索引能加快查询速度、提高排序效率、优化连接操作,也可用于实现数据的唯一性约束;但索引会占用磁盘空间、需要维护,并且会降低表更新的效率.

2023-03-25 22:35:05 86

转载数据同步_Canal

(2) 监控MySQL时报错:com.alibaba.otter.canal.parse.exception.CanalParseException: java.io.IOException: connect localhost/127.0.0.1:3306 failure。(3) 解压:tar -xf canal.deployer-1.1.6.tar.gz -C /soft/canal/Canal 服务日志:canal/logs/canal/canal.log。

2022-09-25 22:41:23 528

原创数据同步_DataX

解决方案:将 datax/plugin/reader/mysqlreader/libs 和 datax/plugin/writer/mysqlwriter/libs 下的mysql-connector-java-5.1.34.jar 替换成 MySQL8对应的 mysql-connector-java.(3) 执行自检脚本: python3 /data/datax/bin/datax.py /data/datax/job/job.json。②Writer:读取Framework数据,将数据写入到目的端.

2022-09-23 09:33:38 627

原创 Spark_SparkSQL

(1) 将 /usr/hdp/3.1.5.0-152/hadoop/conf 下的 core-site.xml 和 hdfs-site.xml 、 /usr/hdp/3.1.5.0-152/spark2/conf 下的 hive-site.xml 放入 resources下.①DataFrame:DataFrame 在 RDD 的基础上加了 Schema,每一行的类型固定为Row. DataFrame 提供了特殊的算子,还提供SQL写法,但是数据类型不安全.(1) 创建 DataFrame。

2022-09-08 12:01:16 989

转载开发工具_IDEA

③在 Setting -> Maven -> Runner 中配置 VM Options:-Dmaven.multiModuleProjectDirectory=$MAVEN_HOME.②在 Setting -> Maven 中配置 Maven home path、User settings file 和Local repository。开启代码自动换行:Settings -> Editor -> General ->Soft Wrap->Soft-Wrap these files.

2022-08-27 17:16:11 78

原创 Spark_SparkCore

Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本.但有时需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量时,可使用共享变量.每个节点的executor只拥有一份广播变量的数据,该executor上的所有的Task共用这一个只读变量.(2) 配置 log4j.properties,设置日志输出等级。将一种类型的RDD转换成另一种类型的RDD.SparkCore入门编程。

2022-08-27 15:39:38 544

转载 MySQL_事务

事务是一组SQL语句,要么全部执行成功,要么全部执行失败,通常一个事务对应一个完整的业务.

2021-12-31 15:33:51 274

原创 SQL_数据类型/运算符/函数

整数:bigint浮点数:decimal字符串:char(n)、varchar(n)时间:date,datetime。

2021-12-06 17:10:17 375 1

转载 MySQL_原理/使用

①数据定义类命令:用于定义和管理数据库对象(如数据库、表、索引等).②数据操作类命令:用于操作数据库中的数据,包括查询、插入、更新和删除.SQL_语法-优快云博客。

2021-12-06 17:02:27 1356

转载 Hive_语法

【代码】Hive_语法。

2021-03-21 15:57:40 930 1

原创数据仓库_数据建模

(1) 数据模型:是抽象描述现实世界的一种工具和方法,通过对实体和实体之间关系的定义和描述,来表达实际业务中具体的业务关系.(2) 数据仓库模型:是数据模型中针对数据仓库应用系统的一种特定的数据模型,包含业务模型、领域模型（主题域模型）、逻辑模型、物理模型.

2020-12-01 21:40:40 2367

转载数据仓库_全流程

①数据源:数据仓库所有原始数据的来源,包括结构化、非结构化数据.数据形式有数据库、文件系统、实时数据流和API接口.②数据湖:以原始格式存储大量原始数据的系统.③数据仓库:是一个在企业管理和决策中面向主题的(数据按主题组织,支持业务分析)、集成的(整合来自不同源的数据,确保一致性)、稳定的(数据一旦进入仓库,通常不会被修改或删除)、随时间变化(数据包含时间戳,支持历史分析)的数据集合.存储经过清洗、转换和集成的数据,提供高性能的查询和分析能力.

2020-12-01 21:20:19 583

原创 ETL_全流程

在DWD层对数据进行清洗和整理,确保数据的质量和准确性.

2020-12-01 20:38:26 2576

转载 Spark_工具使用

(1) 下载:wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz。(1) 分发节点:scp -r /usr/hdp/3.1.5.0-152/spark root@node01:/usr/hdp/3.1.5.0-152/(2) 解压:tar -zxvf spark-3.3.0-bin-hadoop3.tgz -C /usr/hdp/3.1.5.0-152/

2020-11-10 00:19:13 614 1

转载消息中间件_Kafka

Kafka的数据按照topic来存储并分区,每个分区的数据再分段储存,包含有两个核心文件,log用来存储数据,index用来记录数据的偏移量.当log文件等于1G时,新的会写入到下一个分段中.查询时根据index来读取数据.kafka-topics.sh --zookeeper localhost:2181 --create --topic toipc名称 --partitions 2 --replication-factor 2。③消息队列:结合消息和队列,并提供了各种API和底层优化设计的应用框架.

2020-11-09 23:59:19 945 1

weixin_43875878的博客