moooooze-优快云博客

原创 SeaTunnel

SeaTunnel版本：V1.0 第 1 章 Seatunnel 概述1.1 SeaTunnel 是什么SeaTunnel 是一个简单易用的数据集成框架，在企业中，由于开发时间或开发部门不通用，往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。SeaTunnel 支持海量数据的实时同步。它每天可以稳定高效地同步数百亿数据。并已用于近 100 家公司的生产。SeaTunnel的前身是

2022-04-22 00:50:36 3839 1

原创 SparkSQL

SparkSQL第1章 Spark SQL概述1.1 什么是Spark SQL1.2 为什么要有Spark SQL1.3 Spark SQL原理1.3.1 什么是DataFrame1）DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。2）DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Pe

2022-04-21 13:35:07 522

原创 sparkcore

SparkCore版本：V3.0第1章 RDD概述1.1 什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.1.1 RDD类比工厂生产1.1.2 WordCount工作流程1.2 RDD五大特性第2章 RDD编程2.1 RDD的创建在Spark中创建RDD的创建方式可以分为三种：从集合中创建RDD、从外部存储创建RDD

2022-04-21 13:32:53 216

原创 Spark入门

Spark入门第1章 Spark概述1.1 什么是Spark回顾：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Hadoop与Spark历史Hadoop的Yarn框架比Spark框架诞生的晚，所以Spark自己也设计了一套资源调度框架。1.3MR与Spark框架对比1.4 Spark内置模块Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark

2022-04-21 13:25:33 490

原创 Seatunnel

Seatunnel源码解析(6) -Web接口启动Seatunnel2022-04-13 09:07:15 【張不惑】Seatunnel源码解析(6) -SparkLauncher启动SeatunnelSpark应用需求公司在使用Seatunnel的过程中，规划将Seatunnel集成在平台中，提供可视化操作。因此目前有如下几个相关的需求：可以通过Web接口，传递参数，启动一个Seatunnel应用可以自定义日志，收集相关指标，目前想到的包括：应用的入流量、出流量；启动时间、结束时间等在任务

2022-04-20 22:46:22 1217

原创启动脚本1

xcall.sh#! /bin/bashfor i in hadoop102 hadoop103 hadoop104do echo --------- $i ---------- ssh $i "$*"donecluster.sh#!/bin/bashcase $1 in"start"){ echo ================== 启动集群 ================== #启动 Zookeeper集群 zk.s

2022-04-03 15:34:28 2412

原创用户行为数据采集

电商数仓用户行为数据采集第1章数据仓库概念第2章项目需求及架构设计2.1 项目需求分析2.2 项目框架2.2.1 技术选型2.2.2 系统数据流程设计2.2.3 框架版本选型2.2.4服务器选型2.2.5 集群资源规划设计2）测试集群服务器规划服务名称子服务服务器hadoop102 服务器hadoop103 服务器hadoop104HDFS NameNode √ DataNode √ √ √SecondaryNameNode √Yarn NodeManag

2022-01-24 13:28:26 1628

m0_57366194的博客