自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 ORACLE 基础

ORACLE 数据库系统是美国 ORACLE 公司(甲骨文)提供的以分布式数据库为核心的一组软件产品,是目前最流行的客户/服务器(CLIENT/SERVER)或B/S 体系结构的数据库之一。ORACLE 通常应用于大型系统的数据库产品。ORACLE 数据库是目前世界上使用最为广泛的数据库管理系统,作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库它实现了分布式处理功能。

2024-03-01 20:37:25 1224 1

原创 基于DataX完成数据导入-新增及更新导入,全量同步

以shop_order(商城订单表)

2024-02-01 09:00:00 1191 1

原创 基于DataX完成数据导入-仅新增方案

仅新增方式: 订单退款表为例, 探讨如何完成仅新增方式导入操作从业务库将数据导入到ODS层, 分为 首次导入和增量导入两部分, 其中首次导入指的第一次建表, 导入数据, 此时一般都是全量导入, 后续每一天都是采用增量导入的方式,当前项目, 增量模式: T+1(当天处理都是上一天的数据/ 每天的数据在下一天进行处理)技术: DataX当全量导入数据的时候, 整个数据集是应该放置到上一天的分区中呢?还是说应该按照实际表数据创建时间划分到不同分区呢?

2024-01-31 09:00:00 1383

原创 基于DataX完成数据导入-全量覆盖方案

我们开发中 在ods层会使用 : orc + zlib格式, 而其他分层则使用 orc + snappy格式。

2024-01-30 09:30:00 1402 1

原创 数仓工具使用-Datax

DataX 是阿里推出的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。将DataX安装好之后, 仅需要配置Json的采集文件即可实现数据的同步DataX几个组成部分:Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。Writer:Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。

2024-01-29 11:57:47 1864

原创 Zookeeper

环境准备:1. 三台虚拟机都需要安装: Zookeeper环境, 这个不用做了, 我给你装好了.2. 三台虚拟机都要配置path环境变量, 这个我没做, 需要你手动做.3. 分别在三台虚拟机中启动, 并查看 Zookeeper节点信息即可.zkServer.sh start | status | stop -- 启动, 查看状态, 关闭zkCli.sh -- 打开ZK的客户端.

2024-01-26 09:00:00 1886 1

原创 Yarn集群--三大调度策略

目前几乎已经没有人使用了.类似于: 单行道.好处:每个计算任务能独享集群100%的资源.弊端:不能并行执行, 如果大任务过多, 会导致小任务执行时间过长.

2024-01-25 09:00:00 565 1

原创 Hadoop原理

HDFS的安全模式解释:概述:安全模式是HDFS自带的有一种保护机制, 在安全模式下, 只能读, 不能写.进入安全模式的方式:1. 启动Hadoop集群的时候, 会自动进入到安全模式, 进行自检. 自检没问题后, 会自动关闭安全模式.2. 当活跃的节点数 < 默认的副本数时, 会强制进入到安全模式.3. 手动进入.格式:hdfs dfsadmin -safemode get | enter | leave 获取 | 进入 | 离开。

2024-01-24 09:00:00 847 1

原创 Hive调优

Hive调优总结:1. 改硬件.2. 开启或者增大某些设置(配置). 负载均衡, 严格模式(禁用低效SQL), 动态分区数...3. 关闭或者减小某些设置(配置). 严格模式(动态分区), 推测执行...4. 减少IO传输. Input(输入)/Output(输出), 列存储orc, 压缩协议snappy, join优化。

2024-01-23 09:00:00 896 1

原创 Hive高阶函数

列转行需要用到 explode()函数, 爆炸函数, 它属于UDTF(表生成函数), 即: 一进多出. 只能处理 数组或者字典.建表NBA历年夺冠球队信息.数据格式为: Chicago Bulls,1991|1992|1993|1996|1997|1998上传源文件, 然后查看数据. 此时数据为 5. 在上述查询基础上, 加入: 队名即可, 写法如下.高阶函数--行转列1. 建表.2. 上传源文件.3. 查看表数据.4. Hi

2024-01-22 10:31:54 901

原创 Hive函数详解

Hive函数划分介绍:函数介绍:函数就是开发者定义好的规则, 我们只要调用指定的函数, 传入对应的参数, 就能获取对应的结果, 我们无需关心函数内部是如何执行的, 只要会调用即可.可以把函数理解为是人们研发的机器, 不同的机器所需的原材料(参数)是不一样的, 传入不同的原材料(参数), 就会获取不同的结果.概述:最初Hive的函数分为 内置函数 和 用户自定义函数两大类, 而用户自定义函数又分为 UDF, UDAF, UDTF三种.

2024-01-21 21:13:16 1748 1

原创 HiveSQL

3. mapreduce.job.reduces 参数的值默认是 -1, 即: 程序会按照数据量, 任务量自动分配ReduceTask的个数, 一般是1个, 即: 1个桶.2. 去Linux中(即: node1机器), 修改hive软件的配置信息, 配置文件是: /export/server/hive/conf/hive-site.xml 文件.1. 去MySQL的hive3数据库中, 修改Hive的码表信息. 因为Hive的元数据(表名, 列名, 数据类型, 描述信息等)都是在MySQL中存储的.

2024-01-13 13:02:05 1175 1

原创 Hive简介

以后只要写HiveSQL语法就可以了,Hive会将其自动转成MR任务,交由Yarn来调度执行。Hive是依赖Hadoop的,想使用Hive,必须先搭建和启动Hadoop集群。

2024-01-10 09:00:00 1492 1

原创 Hadoop

分布式: 多台机器做不同的事情, 然后组成1个整体.集群: 多台机器做相同的事情.多台机器既可以组成 中心化模式, 也可以组成 去中心化模式。

2024-01-09 09:00:00 895 1

原创 大数据是什么

1.数据导论①什么是数据 对人的行为及习惯做的一种记录. 大白话: 一切皆数据. ②数据有什么? 可以帮助我们更好的了解事与物之间的规律, 更好的提高人们的生活体验和生活环境. ③我们以后要做什么? 我们要做数据分析, 就是从海量的数据中提取出有效的价值信息, 实现数据的商业化, 价值化, 给企业决策者或者运营人员提供分析型报告 和 数据支持. 2.大数据相关导论 ①什么是大数据? 狭义上理解: 分析海量的数据, 提取出有价

2024-01-08 09:00:00 531

原创 Shell解释器介绍,Shell变量,如何编写以及执行shell脚本

Shell编程:就是把我们写的Linux命令封装到1个文件中, 这个文件就叫: Shell脚本. 它是可以被执行的.从编写, 到执行的完整过程, 称之为:;Shell编程.# Shell脚本的执行, 底层需要用到Shell解释器, Linux的众多发行版, 默认的Shell解释器是: /bin/bash[root@node1 ~]# cat /etc/shells # 查看当前Linux系统支持哪些Shell解释器/bin/sh/bin/bash/bin/tcsh。

2024-01-07 20:12:36 1004 1

原创 Linux常用命令

注意多个权限之间, 没有空格. user(属主), group(属组), other(其它)date -d '1 day' '+%Y/%m/%d' # 正数往后加, 负数往前推. 今天时间, 往后加一天.date -d '-1 day' '+%Y/%m/%d' # 正数往后加, 负数往前推. 今天时间, 往后加一天.date -d '-1 day ago' '+%y-%m-%d' # 负负得正, 往后推一天, 了解即可, 没人写.

2024-01-06 17:33:40 1408 2

Zookeeper可视化工具

Zookeeper可视化工具

2024-01-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除