- 博客(18)
- 收藏
- 关注
原创 Flink学习
Flink学习Flink基础实时计算的概念数据和业务形成闭环数据的价值时效性:数据的价值随着时间延迟迅速降低越快越有竞争力->实时计算大数据计算的一些概念:根据处理时间:实时计算 :数据实时处理 结果实时存储离线计算 :数据延迟处理 N+1根据处理方式:流式处理:一次处理一条或少量 状态小批量处理:处理大量数据 处理完返回结果离线计算与实时计算主流开源实时计算框架:storm,sparkstreaming,Flinkstorm:Storm是Twitte
2024-08-12 09:49:26
544
原创 hbase学习
hbase学习hbase概述:HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的)HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hadoop的文件系统提供容错能力。如果需要进行实时读写或者随机访问大规模的数据集的时候,会考虑使用HBase。Hbase处理数据虽然Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统,但是
2024-07-10 15:07:37
1381
原创 Scala学习
本质上是将函数A的处理逻辑主体传给了函数B,在函数B中使用这个处理逻辑// f: String => Int 相当于函数A// fun3 相当于函数B//定义 函数主体a1 + 3000// 定义一个函数s.toInt//调用//定义一个函数fun1, 函数的参数列表中,既有正常的类型参数,也有函数类型的参数a1 + 1000s.toInt// .....val res1: Int = fun1("2000", show2) // 可以传不同的函数 很麻烦 使用lambda简写。
2024-07-10 10:02:46
841
原创 clickhouse学习
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。OLTP(联机事务处理系统)例如mysql等关系型数据库,在对于存储小数据量的时候,查询数据并分析速度很快,OLTP本身其实是一个逻辑上的概念,指的是某个数据库,主要是针对增删改操作的。里面的数据会经常的发生变化。OLAP(联机分析处理系统)指的是数据库中的数据长期不变,有着大量的历史数据,并且可以随时的做分析,而增删改操作很少。OLAP 种类系统架构的的特点:1、绝大多数是读请求。
2024-06-26 14:41:57
1449
原创 Datax学习
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。学习可见官网资料(https://github.com/alibaba/DataX)。设计理念:为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。
2024-06-25 20:46:16
1128
原创 Flume学习
ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel。默认是ReplicatingMultiplexing类型的ChannelSelector会根据Event中Header中的某个属性决定分发到哪个Channel。
2024-06-24 19:29:11
1205
1
原创 Hive学习
Hive学习Hive的基本概念1.HIve简介Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。什么是hive? (记住)1、hive是数据仓库建模的工具之一。2、可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的平台。HIve架构图为什么使用Hive?如果直接使用hadoop的话,人员学
2024-06-18 21:06:59
498
原创 zookeeper学习
hadoop属于单节点,容易出现单点故障,所以我们使用zookeeper来解决这个问题。Zookeeper是一个高效的分布式协调服务,可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务。它不适合用来存储大量信息,可以用来存储一些配置、发布与订阅等少量信息。Zookeeper应用场景:Hadoop、Storm、消息中间件、RPC服务框架、分布式数据库同步系统都需要依赖Zookeeper做信息同步。
2024-06-02 21:10:54
541
原创 python学习笔记 (7)
爬虫: 获取数据-解析数据-存储数据 spider 是一种模仿浏览器上网过程的一种程序,可以获取一些网页的数据。就是解析response对象。
2024-03-27 20:05:58
857
原创 python学习笔记 (6)
在Python中可以通过创建一个新的异常类来拥有自己的异常。自定义异常的原因 Python提供的内建异常不够用 可以预估某个错误的产生。定义异常类 :异常类继承自 Exception 类,可以直接继承,或者间接继承。抛出异常:Python 使用 raise 语句抛出一个指定的异常。raise 需要指定了要被抛出的异常。它必须是一个异常的实例或者是异常的类(也就是 Exception 的子类)。class WeightError(Exception):#定义一个体重异常类pass# 抛出异常。
2024-03-19 20:51:56
1716
原创 python学习笔记(1)
注释 分为单行注释和多行注释。单行注释,一般用于代码注释或者解释(注释的代码或者文字一般不运行)基础数据类型一般是:int float double bool char string None。bool布尔型: True:1 False:0。由大小写字母,数字,下划线构成,但是不能以数字开头。快捷注释/取消注释按键:Ctrl + /驼峰命名法:用在类名,文件名的定义上。
2024-03-13 10:29:09
347
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人