- 博客(7)
- 收藏
- 关注
原创 SeaTunnel
SeaTunnel版本:V1.0 第 1 章 Seatunnel 概述1.1 SeaTunnel 是什么SeaTunnel 是一个简单易用的数据集成框架,在企业中,由于开发时间或开发部门不通用,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。SeaTunnel 支持海量数据的实时同步。它每天可以稳定高效地同步数百亿数据。并已用于近 100 家公司的生产。SeaTunnel的前身是
2022-04-22 00:50:36
3637
1
原创 SparkSQL
SparkSQL第1章 Spark SQL概述1.1 什么是Spark SQL1.2 为什么要有Spark SQL1.3 Spark SQL原理1.3.1 什么是DataFrame1)DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。2)DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Pe
2022-04-21 13:35:07
488
原创 sparkcore
SparkCore版本:V3.0第1章 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.1.1 RDD类比工厂生产1.1.2 WordCount工作流程1.2 RDD五大特性第2章 RDD编程2.1 RDD的创建在Spark中创建RDD的创建方式可以分为三种:从集合中创建RDD、从外部存储创建RDD
2022-04-21 13:32:53
193
原创 Spark入门
Spark入门第1章 Spark概述1.1 什么是Spark回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Hadoop与Spark历史Hadoop的Yarn框架比Spark框架诞生的晚,所以Spark自己也设计了一套资源调度框架。1.3MR与Spark框架对比1.4 Spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark
2022-04-21 13:25:33
453
原创 Seatunnel
Seatunnel源码解析(6) -Web接口启动Seatunnel2022-04-13 09:07:15 【張不惑】Seatunnel源码解析(6) -SparkLauncher启动SeatunnelSpark应用需求公司在使用Seatunnel的过程中,规划将Seatunnel集成在平台中,提供可视化操作。因此目前有如下几个相关的需求:可以通过Web接口,传递参数,启动一个Seatunnel应用可以自定义日志,收集相关指标,目前想到的包括:应用的入流量、出流量;启动时间、结束时间等在任务
2022-04-20 22:46:22
1138
原创 启动脚本1
xcall.sh#! /bin/bashfor i in hadoop102 hadoop103 hadoop104do echo --------- $i ---------- ssh $i "$*"donecluster.sh#!/bin/bashcase $1 in"start"){ echo ================== 启动 集群 ================== #启动 Zookeeper集群 zk.s
2022-04-03 15:34:28
2386
原创 用户行为数据采集
电商数仓 用户行为数据采集第1章 数据仓库概念第2章 项目需求及架构设计2.1 项目需求分析2.2 项目框架2.2.1 技术选型2.2.2 系统数据流程设计2.2.3 框架版本选型2.2.4服务器选型2.2.5 集群资源规划设计2)测试集群服务器规划服务名称 子服务 服务器hadoop102 服务器hadoop103 服务器hadoop104HDFS NameNode √ DataNode √ √ √SecondaryNameNode √Yarn NodeManag
2022-01-24 13:28:26
1537
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人