- 博客(29)
- 收藏
- 关注
转载 Hadoop
Hadoop是一个开发和运行处理大规模数据的软件平台,允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理.Hadoop被抽象成一个分布式操作系统,文件系统是HDFS,操作系统内核是YARN,应用开发框架/规范是MapReduce.①HDFS(分布式文件系统):解决海量数据存储.②YARN(作业调度和集群资源管理的框架):解决资源任务调度.③MapReduce(分布式运算编程框架):解决海量数据计算.
2025-03-05 16:26:39
12
原创 SQL_优化/问题
①分区:筛选并优先筛选分区,区分度大的字段先过滤②列裁剪:读取操作(select、where、join、group by、sort by等),不读取不需要的列,减少IO消耗.③尽量不在筛选字段上使用函数和表达式.
2025-02-26 15:01:52
371
转载 Spark_SparkSQL_参数
spark.sql.crossJoin.enabled=true:控制是否允许 cross join.spark.sql.decimalOperations.allowPrecisionLoss=false:控制在进行小数运算时是否允许精度损失.
2025-02-20 15:45:12
83
原创 SQL_练习
(1) 列拆分为多行把指定字段按指定分隔符进行拆分为多行,然后其它字段直接复制.(2) 行扁平化把同一组的多行数据合并成为一行.(3) 列转行如果数据一列有相同的值,按照指定的字段,将其中一列的字段内容变成不同的列,然后把多行数据转换为一行数据.(4) 行转列把数据字段的字段名转换为一列,把数据行变为数据列.
2024-09-10 16:03:46
439
原创 Hive_数据模型
(2) 数据表: 分为内部表(数据由Hive管理,存储在默认位置,删表会删除数据) 和 外部表(被external修饰的,数据存储位置需要指定,删表不会删除数据).(3) 分区:明确指定值(静态分区) 或者 指定表的N个字段(动态分区) 作为分区列,对表数据进行划分,每个分区对应一个目录.分区列名不能是表中的列.②表可以同时分区和分桶,当表分区时,每个分区下都会有多个桶,表现为表目录下小文件的个数.(4) 分桶:将数据按某个字段的哈希值进行分割,每个桶对应一个文件.(1) 修改分区名称。
2024-09-10 11:45:16
203
转载 Hive_架构/使用
Hive DDL与DML精要-优快云博客(1) 功能数据定义类命令:用于定义和管理 Hive 数据库对象(如数据库、表、分区等).数据操作类命令:用于操作 Hive 表中的数据,包括查询、插入、加载和导出.(2) 同步数据①导入数据Load命令可以将HDFS(或本地文件)导入到Hive表.使用load data形式往hive表中装载数据时,则不会检查.如果字段多了则会丢弃,少了则会null值填充.同样如果字段类型不一致,也是使用null值填充.不能用于动态分区.
2024-09-10 11:29:20
91
转载 MySQL_索引
索引是额外的数据结构,对数据库表中一列或多列的值进行排序.使用索引能加快查询速度、提高排序效率、优化连接操作,也可用于实现数据的唯一性约束;但索引会占用磁盘空间、需要维护,并且会降低表更新的效率.
2023-03-25 22:35:05
86
转载 数据同步_Canal
(2) 监控MySQL时报错:com.alibaba.otter.canal.parse.exception.CanalParseException: java.io.IOException: connect localhost/127.0.0.1:3306 failure。(3) 解压:tar -xf canal.deployer-1.1.6.tar.gz -C /soft/canal/Canal 服务日志:canal/logs/canal/canal.log。
2022-09-25 22:41:23
528
原创 数据同步_DataX
解决方案:将 datax/plugin/reader/mysqlreader/libs 和 datax/plugin/writer/mysqlwriter/libs 下的mysql-connector-java-5.1.34.jar 替换成 MySQL8对应的 mysql-connector-java.(3) 执行自检脚本: python3 /data/datax/bin/datax.py /data/datax/job/job.json。②Writer:读取Framework数据,将数据写入到目的端.
2022-09-23 09:33:38
627
原创 Spark_SparkSQL
(1) 将 /usr/hdp/3.1.5.0-152/hadoop/conf 下的 core-site.xml 和 hdfs-site.xml 、 /usr/hdp/3.1.5.0-152/spark2/conf 下的 hive-site.xml 放入 resources下.①DataFrame:DataFrame 在 RDD 的基础上加了 Schema,每一行的类型固定为Row. DataFrame 提供了特殊的算子,还提供SQL写法,但是数据类型不安全.(1) 创建 DataFrame。
2022-09-08 12:01:16
989
转载 开发工具_IDEA
③在 Setting -> Maven -> Runner 中 配置 VM Options:-Dmaven.multiModuleProjectDirectory=$MAVEN_HOME.②在 Setting -> Maven 中配置 Maven home path、User settings file 和Local repository。开启代码自动换行:Settings -> Editor -> General ->Soft Wrap->Soft-Wrap these files.
2022-08-27 17:16:11
78
原创 Spark_SparkCore
Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本.但有时需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量时,可使用共享变量.每个节点的executor只拥有一份广播变量的数据,该executor上的所有的Task共用这一个只读变量.(2) 配置 log4j.properties,设置日志输出等级。将一种类型的RDD转换成另一种类型的RDD.SparkCore入门编程。
2022-08-27 15:39:38
544
原创 SQL_数据类型/运算符/函数
整数:bigint浮点数:decimal字符串:char(n)、varchar(n)时间:date,datetime。
2021-12-06 17:10:17
375
1
转载 MySQL_原理/使用
①数据定义类命令:用于定义和管理数据库对象(如数据库、表、索引等).②数据操作类命令:用于操作数据库中的数据,包括查询、插入、更新和删除.SQL_语法-优快云博客。
2021-12-06 17:02:27
1356
原创 数据仓库_数据建模
(1) 数据模型:是抽象描述现实世界的一种工具和方法,通过对实体和实体之间关系的定义和描述,来表达实际业务中具体的业务关系.(2) 数据仓库模型:是数据模型中针对数据仓库应用系统的一种特定的数据模型,包含业务模型、领域模型(主题域模型)、逻辑模型、物理模型.
2020-12-01 21:40:40
2367
转载 数据仓库_全流程
①数据源:数据仓库所有原始数据的来源,包括结构化、非结构化数据.数据形式有数据库、文件系统、实时数据流和API接口.②数据湖:以原始格式存储大量原始数据的系统.③数据仓库:是一个在企业管理和决策中面向主题的(数据按主题组织,支持业务分析)、集成的(整合来自不同源的数据,确保一致性)、稳定的(数据一旦进入仓库,通常不会被修改或删除)、随时间变化(数据包含时间戳,支持历史分析)的数据集合.存储经过清洗、转换和集成的数据,提供高性能的查询和分析能力.
2020-12-01 21:20:19
583
转载 Spark_工具使用
(1) 下载:wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz。(1) 分发节点:scp -r /usr/hdp/3.1.5.0-152/spark root@node01:/usr/hdp/3.1.5.0-152/(2) 解压:tar -zxvf spark-3.3.0-bin-hadoop3.tgz -C /usr/hdp/3.1.5.0-152/
2020-11-10 00:19:13
614
1
转载 消息中间件_Kafka
Kafka的数据按照topic来存储并分区,每个分区的数据再分段储存,包含有两个核心文件,log用来存储数据,index用来记录数据的偏移量.当log文件等于1G时,新的会写入到下一个分段中.查询时根据index来读取数据.kafka-topics.sh --zookeeper localhost:2181 --create --topic toipc名称 --partitions 2 --replication-factor 2。③消息队列:结合消息和队列,并提供了各种API和底层优化设计的应用框架.
2020-11-09 23:59:19
945
1
原创 任务调度_Azkaban
(3) Flow:工作流,由一个或多个job组成.工作流是指一类能够完全自动执行的经营过程,根据一系列过程规则,将文档、信息或任务在不同的执行者之间进行传递与执行.工作流就是封装好的一种框架,我们利用这种框架来解决需要多个人或者多个部门协同完成的某项工作.解决方案:修改azkaban-web-server/conf/azkaban.properties: azkaban.executorselector.filters = StaticRemainingFlowSize,CpuStatus.
2020-11-08 17:05:16
1909
1
原创 Linux命令
查看逻辑CPU的个数:cat /proc/cpuinfo| grep "processor"| wc -l。mv '文件名'/'目录名' 新文件名/新目录:修改文件名/目录名,处理特殊符号。ll -a 目录名:列出指定目录下的所有文件信息,包括隐藏的文件。(2) 修改文件编码:iconv -f utf-8 -t gb2312 旧文件 > 新文件。-b:以二进制方式上传文件,保证上传后的文件与原始文件一致。mv 原路径/文件名(目录) 新路径/文件名(新目录) :移动文件/目录。
2020-11-08 16:13:42
1093
1
转载 MySQL_语法
(5) 主键约束:约束该单字段(或字段组)的值具有唯一性,不为null且不为空,且只有一个主键约束.如主键是整数型,可配合auto_increment实现主键自增长.(6) 外键约束:限制两个表的关系,保证该字段的值必须来自于主表的关联列的值.使用时在从表添加外键约束,用于引用主表中某列的值.要求主键和外键的数据类型必须一致.(2) 默认值约束(default):约束该字段有默认值,即该字段不输入值时,会给一个默认值.一般结合非空约束使用.(1) 非空约束:约束该字段的值不能为null.
2020-11-05 21:56:25
938
转载 后端服务框架_Spring_依赖注解
③ @ApiModel(value = "GetParamByEntityReqDto", description = "Get请求获取对象入参请求dto"):用于接口出入参对象类上,对象说明.@Option(name = "-p", aliases = {"-profileActive"}, usage = "启动环境",required = true)④ @ApiModelProperty(name = "age", value = "年龄"):用于接口出入参对象类上,字段说明.
2020-11-05 16:35:48
609
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人