KasarJ-优快云博客

原创 Flink中API的使用

预定义Source基于本地集合的source（Collection-based-source）基于文件的source（File-based-source）基于网络套接字（socketTextStream）自定义Source在flink最常见的创建DataStream方式有四种：使用env.fromElements()，这种方式也支持Tuple，自定义对象等复合形式使用env.fromCollection(),这种方式支持多种Collection的具体类型，如List，Set，Queue。

2024-11-25 20:11:25 1305

原创 Fink的安装与入门

将资料下的flink-shaded-hadoop-2-uber-2.7.5-10.0.jar放到flink的lib目录下。Flink官方提供了Java、Scala、Python语言接口用以开发Flink应用程序。cd到flink的conf文件下flink/conf/flink-conf.yaml。standaloneHA—独立集群高可用模式，Flink自带集群，开发测试环境使用。standalone——独立模式，Flink自带集群，开发测试环境使用。local（本地）——本地模式。将配置分发给三台虚拟机。

2024-11-25 19:13:36 786

原创 spark 的自定义函数

r方语法：UDF变量名 = spark.udf.register(UDF函数名, 函数的处理逻辑DSL中调用UDF使用的SQL中调用UDF使用举例数据：01 周杰伦 150/17502 周杰 130/18503 周华健 148/17804 周星驰 130/17505 闫妮 110/180将以上数据，通过自定义函数，变为如下数据：01 周杰伦 150斤/175cm。

2024-11-11 20:49:58 1093

原创 kafka 的一些问题，夺命15连问后续

可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前，考虑上一次分配的结果，尽量少的调整分配的变动，可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略，首先会尽量均衡的放置分区到消费者上面，在出现同一消费者组内消费者出现问题的时候，会尽量保持原有分配的分区不变化。CooperativeSticky 的解释【新的kafka中刚添加的策略】：

2024-11-11 20:39:04 1216 1

原创 Kafka 的一些问题，夺命15连问

kafka-中的组成员kafka四大核心生产者API允许应用程序发布记录流至一个或者多个kafka的主题（topics）。消费者API允许应用程序订阅一个或者多个主题，并处理这些主题接收到的记录流StreamsAPI允许应用程序充当流处理器（stream processor），从一个或者多个主题获取输入流，并生产一个输出流到一个或者多个主题，能够有效的变化输入流为输出流。允许构建和运行可重用的生产者或者消费者，能够把kafka主题连接到现有的应用程序或数据系统。

2024-11-09 14:51:27 2799 1

原创如何使用SparkSQL在hive中使用Spark的引擎计算

在hive中，由于hive自带的计算引擎计算比较慢，这个时候可以使用spark替换hive的计算引擎，可以增加hive的计算速度。在替换之前，首先虚拟机上要有spark的集群模式，spark 的yarn集群模式，需要hdfs，yran，hive# 启动HDFS服务：NameNode和DataNodes# 启动HiveMetaStore 服务我这里hive的服务全部启动了，也可以单独启动iveMetaStore# 设置Spark日志级别。

2024-11-06 20:40:06 1857

原创 Spark中的shuffle过程详细

全局分组：reduceByKey，groupByKey全局排序：sortBy，sortByKey增大分区:repartition,coalesecoalesce(根据情况) join / fullOuterJoin / leftOuterJoin / rightOuterJoin。

2024-11-06 20:15:03 1163

原创关于pysqark，算子部分的面试题

repartition（重分区算子）、coalesce（重分区算子）、keys、values、mapvalues、join、fullOuterjoin、leftOuterJoin、rightOuterjoin、转换算子：union、distinct、reduceByKey、groupByKey、map、sortBy、sortByKey、分区算子：mapPartttions、foreachParition。

2024-10-31 20:50:37 265

原创 4种排序方式比较：order by, sort by, distribute by, cluster by

4种排序方式：order by, sort by, distribute by, cluster by。

2024-10-31 20:34:23 511

原创 Power BI 的下载安装和试玩

会自动转跳win的商城，因为Power BI是微软的软件，如果使用的是微软的正版系统，可以直接跳转商城自动下载。会给一个exe文件的下载器，选择安装安装位置，后自动安装，安装结束之后会自动跳转到商城页面，然后打开。然后会提示缺少插件，会提示没有插件，点击了解详细信息，进去下载插件，安装插件，之后就可使用。然后链接数据库，我这里链接的的是阿里云的云数据库。选择自己要用的数据，然后点击加载。然后加载结束以后，右侧会出现数据。进入界面，然后选择链接数据库。然后右侧选择视图，选择数据，选择MySql数据库。

2024-10-14 19:29:42 602

原创 finebi的20个面试题

4. 模板页面已经引用数据集ds1的字段内容，后面将ds1名字改成ds2，模板主体内容会自动变成引用ds2。15. 有时我们希望将模板发送给别人修改，导出模板时需要附带导出内置数据，导出时其实是作为两个文件存在的。17. FineBI可以将FineReport制作的报表挂出，并且可以集成到FineBI制作的仪表板中。答案: A. 左合并, B. 右合并, C. 并集合并, D. 交集合并。3. 模板单元格中，左侧下方有黄色三角形，表示什么意思？11. if(3==3,1,2)结果是什么？

2024-10-14 08:14:05 707 1

原创 Redis的安装和简单试玩

Redis是数据库。是一个NoSQL 数据库，是基于内存的，可以当做缓存使用，使用频率相当高，NoSQL即Not-Only SQL（不仅仅是SQL）

2024-09-24 20:23:36 886

原创开源数据同步中间件（Dbsyncer）简单玩一下 mysql to mysql 的增量，全量配置

Dbsyncer是一款开源的数据同步中间件，提供MySQL、Oracle、SqlServer、PostgreSQL、Elasticsearch(ES)、Kafka、File、SQL等同步场景，支持上传插件自定义同步转换业务，提供监控全量和增量数据统计图、应用性能预警等。

2024-09-13 20:12:57 8238 1

原创 DataGrip或者intellijIDEA 远程链接数据库的时候下载驱动失败出现错误：https://download.jetbrains.com/idea/jdbc-drivers/Redis/

本人使用DataGrip版本：2023.1在链接数据库的时候出现这个错误，无法完全加载驱动，是因为这里的maven仓库下载驱动失败，这时候需要自己手动下载驱动。

2024-09-12 19:24:59 1751

原创 spoon、mysql数据导入hive，分别使用hdfs导入，或者修改配置

通过sqoon将mysql的数据导入hive的两种方法

2024-09-12 19:11:09 996

原创 Hive的集群的搭建-内嵌模式-本地模式-远程链接

Hive 是一个框架，可以通过编写sql的方式，自动的编译为MR任务的一个工具Hive是一个数据仓库工，可以将数据加载到表中，编写sql进行分析，底层依赖Hadoop，所以每一次都需要启动hadoop(hdfs以及yarn)，Hive的底层计算框架可以使用MR、也可以使用Spark、TEZ，Hive不是数据库，而是一个将MR包了一层壳儿。类似于一个中介。

2024-09-10 19:05:45 2768

原创 DolphinScheduler(海豚调度器)安装与试玩一下

DolphinScheduler部署

2024-09-09 19:37:06 3584

原创 Hive的一些基本函数（二）

如果不能平均分配，则优先分配较小编号的桶，并且各个桶中能放的行数最多相差1。row_number从1开始，按照顺序，生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行排列。在over窗口中进行分组,对某一字段进行分组统计,窗口大小就是同一个组的所有记录（按照所给字段分组）当查询的要求，既要明细查询又要统计查询的时候，这时候考虑开窗，通过over语法让两种查询同时执行。需求：获取一个表中，所有消费记录中，每一个人，最后50%的消费记录。

2024-09-07 14:25:47 538 1

原创 Hive 的一些基本函数（一）

hive 中的一些基本函数，常用的使用方法

2024-09-07 11:05:28 732 1

KasarJ的博客