sunsetgaia-优快云博客

原创 Flink学习

Flink学习Flink基础实时计算的概念数据和业务形成闭环数据的价值时效性：数据的价值随着时间延迟迅速降低越快越有竞争力->实时计算大数据计算的一些概念：根据处理时间:实时计算：数据实时处理结果实时存储离线计算：数据延迟处理 N+1根据处理方式:流式处理：一次处理一条或少量状态小批量处理：处理大量数据处理完返回结果离线计算与实时计算主流开源实时计算框架:storm,sparkstreaming,Flinkstorm:Storm是Twitte

2024-08-12 09:49:26 544

原创 Spark学习

系统的学习spark

2024-07-24 21:35:32 1118

原创 hbase学习

hbase学习hbase概述：HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层是字节数组做存储的）HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。如果需要进行实时读写或者随机访问大规模的数据集的时候，会考虑使用HBase。Hbase处理数据虽然Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统，但是

2024-07-10 15:07:37 1381

原创 Scala学习

本质上是将函数A的处理逻辑主体传给了函数B，在函数B中使用这个处理逻辑// f: String => Int 相当于函数A// fun3 相当于函数B//定义函数主体a1 + 3000// 定义一个函数s.toInt//调用//定义一个函数fun1, 函数的参数列表中，既有正常的类型参数，也有函数类型的参数a1 + 1000s.toInt// .....val res1: Int = fun1("2000", show2) // 可以传不同的函数很麻烦使用lambda简写。

2024-07-10 10:02:46 841

原创 clickhouse学习

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。OLTP(联机事务处理系统)例如mysql等关系型数据库，在对于存储小数据量的时候，查询数据并分析速度很快，OLTP本身其实是一个逻辑上的概念，指的是某个数据库，主要是针对增删改操作的。里面的数据会经常的发生变化。OLAP(联机分析处理系统)指的是数据库中的数据长期不变，有着大量的历史数据，并且可以随时的做分析，而增删改操作很少。OLAP 种类系统架构的的特点:1、绝大多数是读请求。

2024-06-26 14:41:57 1449

原创 FlinkX学习

学习flinkx

2024-06-26 09:52:17 944

原创 Datax学习

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。学习可见官网资料(https://github.com/alibaba/DataX)。设计理念：为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。

2024-06-25 20:46:16 1128

原创 Flume学习

ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型，分别是Replicating（复制）和Multiplexing（多路复用）。ReplicatingSelector会将同一个Event发往所有的Channel，Multiplexing会根据相应的原则，将不同的Event发往不同的Channel。默认是ReplicatingMultiplexing类型的ChannelSelector会根据Event中Header中的某个属性决定分发到哪个Channel。

2024-06-24 19:29:11 1205 1

原创 Hive学习

Hive学习Hive的基本概念1.HIve简介Hive本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更近一步说hive就是一个MapReduce客户端。什么是hive? （记住）1、hive是数据仓库建模的工具之一。2、可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的平台。HIve架构图为什么使用Hive?如果直接使用hadoop的话，人员学

2024-06-18 21:06:59 498

原创 zookeeper学习

hadoop属于单节点，容易出现单点故障，所以我们使用zookeeper来解决这个问题。Zookeeper是一个高效的分布式协调服务，可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务。它不适合用来存储大量信息，可以用来存储一些配置、发布与订阅等少量信息。Zookeeper应用场景：Hadoop、Storm、消息中间件、RPC服务框架、分布式数据库同步系统都需要依赖Zookeeper做信息同步。

2024-06-02 21:10:54 541

原创 java学习笔记（1）

关键字：被Java语言赋予特定含义的单词，组成关键字的字母全部小写。

2024-04-22 09:53:17 897

原创 python学习笔记（7）

爬虫：获取数据-解析数据-存储数据 spider 是一种模仿浏览器上网过程的一种程序，可以获取一些网页的数据。就是解析response对象。

2024-03-27 20:05:58 857

原创 python学习笔记（6）

在Python中可以通过创建一个新的异常类来拥有自己的异常。自定义异常的原因 Python提供的内建异常不够用可以预估某个错误的产生。定义异常类：异常类继承自 Exception 类，可以直接继承，或者间接继承。抛出异常：Python 使用 raise 语句抛出一个指定的异常。raise 需要指定了要被抛出的异常。它必须是一个异常的实例或者是异常的类（也就是 Exception 的子类）。class WeightError(Exception):#定义一个体重异常类pass# 抛出异常。

2024-03-19 20:51:56 1716

原创 python学习笔记 (5)

记录上课内容

2024-03-15 21:52:32 1832 1

原创 python学习笔记（4）

还可以循环 iterable：可迭代。

2024-03-14 08:37:30 2034 1

原创 python学习笔记（3）

本文将介绍数据类型之间的转换：int float str bool。

2024-03-13 16:10:33 509 1

原创 python学习笔记（2）

字符串类型；

2024-03-13 14:45:22 501 1

原创 python学习笔记（1）

注释分为单行注释和多行注释。单行注释，一般用于代码注释或者解释（注释的代码或者文字一般不运行）基础数据类型一般是：int float double bool char string None。bool布尔型： True:1 False:0。由大小写字母，数字，下划线构成，但是不能以数字开头。快捷注释/取消注释按键：Ctrl + /驼峰命名法：用在类名，文件名的定义上。

2024-03-13 10:29:09 347 1

weixin_46935426的博客