Act-F-优快云博客

原创 flink与kafka基础知识

Flink是一个分布式实时计算框架。用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。有状态：有状态计算是将当前批次结果加上上一批次计算的结果。无界流有定义流的开始，但没有定义流的结束(没有边界)。它们会无休止地产生数据。流处理。有界流有定义流的开始，也有定义流的结束。有界流(假如1000条数据)，即可批处理(一次处理一批)，也可以流处理(一条一条处理)。任意规模进行计算：指的是flink主从节点。jobmanager:driver端。

2024-07-31 21:30:18 1854

原创 Spark组件(sql,streaming)及spark优化

appName("udf自定义函数")//当你配置了hdfs等一些配置文件，那么默认读取路径是hadoop的，否则是本地.load("/bigdata30/students.csv")//读取路径是hadoop// df1.select($"id",$"name",concat(expr("'数加:'"),$"name") as "new_name").show()// concat(expr("'数加:'"),$"name")//对姓名做拼接。

2024-07-24 22:35:05 1921

原创 spark初识与内核

Spark，是一个大数据计算引擎，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎，能够计算大量的数据，例如hadoop中hdfs上的数据。

2024-07-14 23:28:45 807 1

原创 Scala基础知识

*** 可以在scala程序定义类* 类：构造方法成员方法成员变量* 构造方法：* 1、类所拥有的大括号中都是构造代码块的内容* 2、默认情况下，每一个类都应该提供一个无参的构造方法* 3、构造方法可以有许多*/val stu1: Student = new Student("李亮", 18)/*** 定义成员变量*/var _gender: String = _ // 这个下划线，就表示将来会赋予默认值/*** 构造方法也可以写多个*/

2024-07-10 22:11:07 1849 6

原创开源离线同步工具DataX3.0

Framework：Framework用于连接reader和writer，是两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。"column": ["*"], # 同步的列名 (* 表示所有)dataX生成模板的命令：datax.py -r mysqlreader -w hdfswriter。"value":"生成模板的""value": "表示不服""value": "张三""value": "真帅""value": "李四""value":"命令"

2024-07-09 23:38:35 1241

原创 FlinkX安装与使用

FlinkX是在袋鼠云内部广泛使用的基于flink的分布式离线和实时的数据同步框架，实现了多种异构数据源之间高效的数据迁移。FlinkX是一个数据同步工具，既可以采集静态的数据，比如MySQL，HDFS等，也可以采集实时变化的数据，比如MySQL ，binlog，Kafka等。

2024-07-09 21:44:25 1722

原创 SQOOP安装及使用

HDFS(分布式文件管理系统)--->RDBMS(关系型数据管理系统) export要知道你要数据的来源和数据的目的地mysql:--connect--usernameroot--passwordxxxxxx--tableclazz30--m1hdfs:'\t'hive:1)bigdata30','2)','# 增量需要添加的参数appendid3'\t'--check-column （hive的列名）last_mod--m1。

2024-06-26 23:35:20 963

原创 clickhouse学习

OLTP(联机事务处理系统)例如mysql等关系型数据库，在对于存储小数据量的时候，查询数据并分析速度很快，OLTP本身其实是一个逻辑上的概念，指的是某个数据库，主要是针对增删改操作的。里面的数据会经常的发生变化。OLAP(联机分析处理系统)指的是数据库中的数据长期不变，有着大量的历史数据，并且可以随时的做分析，而增删改操作很少。OLAP 种类系统架构的的特点:1、绝大多数是读请求2、数据以相当大的批次(> 1000行)更新，而不是单行更新;或者根本没有更新。

2024-06-25 23:53:50 967

原创 Hbase过滤器

通过ValueFilter与BinaryPrefixComparator 过滤出所有的单元格（cell）中值以 "施" 开头的学生只查询列值是"施"前缀的这一列，其他列不查。1.比较运算符：LESS< , LESS_OR_EOUAL<=, EQUAL=, GREATER_OR_EQUAL>=通过FamilyFilter与SubstringComparator查询列簇名包含（xx）的所有列簇下面的数据。会返回满足条件的cell所在行的所有cell的值。会排除掉指定的列，其他的列全部返回。

2024-06-19 22:31:05 380

原创 Hbase进阶与API

5、如果时查询的话，可以对查询的结果进行分析。4、如何向一张表中同时添加一批数据。3、如何向一张表中添加一条数据。7、如何创建预分region表。5、如何获取一条数据。6、如果获取一批数据。2、创建数据库连接对象。3、创建数据库操作对象。

2024-06-16 23:25:44 314

原创 Hbase架构和基础命令

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层是字节数组做存储的）

2024-06-16 00:00:01 358

原创数据中台建设方法论

通过数据采集工具将详细的原始数据采集到数据表中，然后将这些数据进行清洗替换存储到事务表中，再将事务表中的数据经过聚和操作生成应用指标为公司的决策提供数据支持。数据一旦进入数据仓库，数据就不应该再有改变，操作型环境中的数据一般都会频繁的更新，而在数据仓库环境中一般不进行数据更新，当改变的操作性数据进入数据仓库时会产生新的记录。集成与面向主题密切相关，将多个分散的数据源统一成一致的、无歧义的个数据，比如产品名冲突，单位不一致问题，完成此类整合后该数据仓库可称为集成的。

2024-06-13 23:37:56 315

原创 Hive函数

count(列名)只包括列名那一列，会忽略列值为空（这里的空不是指空字符串或者0，而是表示null）的计数，即某个字段值为NULL时，不统计。count(1)包括了忽略所有列，用1代表代码行，在统计结果的时候，不会忽略列值NULL ，最快。count(*)包括了所有的列，相当于行数，不会忽略列值为NULL，执行速度最慢。如果表有多列，且不存在主键，则count(1)效率优于count(*)如果列不为主键，count(1)效率优于count(列名)如果列为主键，count(列名)效率优于count(1)

2024-06-12 23:16:46 917

原创 hive3.1.2分区与排序

clustered by指定分桶字段的时候，字段已经出现定义过了，只需要指定字段的名字。2、无论是分区还是分桶，在建表的时候都要指定字段，分区使用partitioned by指定分区字段，分桶使用clustered by指定分桶字段。select * from 表名 distribute by 字段名[,字段名...] sort by 字段名[,字段名...];1、在HDFS上的效果区别，分区产生的是一个一个子文件夹，分桶产生的是一个一个文件。4、分区字段最好选择固定类别的，分桶字段最好选择值各不相同的。

2024-06-11 23:33:37 966

原创 Hive3.1.2概述与基本操作

面试题：什么是hive?1、hive是数据仓库建模的工具之一。2、可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的平台。

2024-06-10 23:34:36 964 2

2403_83630621的博客