自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Flink中API的使用

预定义Source基于本地集合的source(Collection-based-source)基于文件的source(File-based-source)基于网络套接字(socketTextStream)自定义Source在flink最常见的创建DataStream方式有四种:使用env.fromElements(),这种方式也支持Tuple,自定义对象等复合形式使用env.fromCollection(),这种方式支持多种Collection的具体类型,如List,Set,Queue。

2024-11-25 20:11:25 1167

原创 Fink的安装与入门

将资料下的flink-shaded-hadoop-2-uber-2.7.5-10.0.jar放到flink的lib目录下。Flink官方提供了Java、Scala、Python语言接口用以开发Flink应用程序。cd到flink的conf文件下flink/conf/flink-conf.yaml。standaloneHA—独立集群高可用模式,Flink自带集群,开发测试环境使用。standalone——独立模式,Flink自带集群,开发测试环境使用。local(本地)——本地模式。将配置分发给三台虚拟机。

2024-11-25 19:13:36 528

原创 spark 的自定义函数

r方语法:UDF变量名 = spark.udf.register(UDF函数名, 函数的处理逻辑DSL中调用UDF使用的SQL中调用UDF使用举例数据:01 周杰伦 150/17502 周杰 130/18503 周华健 148/17804 周星驰 130/17505 闫妮 110/180将以上数据,通过自定义函数,变为如下数据:01 周杰伦 150斤/175cm。

2024-11-11 20:49:58 938

原创 kafka 的一些问题,夺命15连问后续

可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前, 考虑上一次分配的结果,尽量少的调整分配的变动,可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略,首先会尽量均衡的放置分区 到消费者上面,在出现同一消费者组内消费者出现问题的时候,会尽量保持原有分配的分区不变化。CooperativeSticky 的解释【新的kafka中刚添加的策略】:

2024-11-11 20:39:04 1115 1

原创 Kafka 的一些问题,夺命15连问

kafka-中的组成员kafka四大核心生产者API允许应用程序发布记录流至一个或者多个kafka的主题(topics)。消费者API允许应用程序订阅一个或者多个主题,并处理这些主题接收到的记录流StreamsAPI允许应用程序充当流处理器(stream processor),从一个或者多个主题获取输入流,并生产一个输出流到一个或 者多个主题,能够有效的变化输入流为输出流。允许构建和运行可重用的生产者或者消费者,能够把kafka主题连接到现有的应用程序或数据系统。

2024-11-09 14:51:27 2406 1

原创 如何使用SparkSQL在hive中使用Spark的引擎计算

在hive中,由于hive自带的计算引擎计算比较慢,这个时候可以使用spark替换hive的计算引擎,可以增加hive的计算速度。在替换之前,首先虚拟机上要有spark的集群模式,spark 的yarn集群模式,需要hdfs,yran,hive# 启动HDFS服务:NameNode和DataNodes# 启动HiveMetaStore 服务我这里hive的服务全部启动了,也可以单独启动iveMetaStore# 设置Spark日志级别。

2024-11-06 20:40:06 1557

原创 Spark中的shuffle过程详细

全局分组:reduceByKey,groupByKey全局排序:sortBy,sortByKey增大分区:repartition,coalesecoalesce(根据情况) join / fullOuterJoin / leftOuterJoin / rightOuterJoin。

2024-11-06 20:15:03 966

原创 关于pysqark,算子部分的面试题

repartition(重分区算子)、coalesce(重分区算子)、keys、values、mapvalues、join、fullOuterjoin、leftOuterJoin、rightOuterjoin、转换算子:union、distinct、reduceByKey、groupByKey、map、sortBy、sortByKey、分区算子:mapPartttions、foreachParition。

2024-10-31 20:50:37 218

原创 4种排序方式比较:order by, sort by, distribute by, cluster by

4种排序方式:order by, sort by, distribute by, cluster by。

2024-10-31 20:34:23 383

原创 Power BI 的下载安装和试玩

会自动转跳win的商城,因为Power BI是微软的软件,如果使用的是微软的正版系统,可以直接跳转商城自动下载。会给一个exe文件的下载器,选择安装安装位置,后自动安装,安装结束之后会自动跳转到商城页面,然后打开。然后会提示缺少插件,会提示没有插件,点击了解详细信息,进去下载插件,安装插件,之后就可使用。然后链接数据库,我这里链接的的是阿里云的云数据库。选择自己要用的数据,然后点击加载。然后加载结束以后,右侧会出现数据。进入界面,然后选择链接数据库。然后右侧选择视图,选择数据,选择MySql数据库。

2024-10-14 19:29:42 421

原创 finebi的20个面试题

4. 模板页面已经引用数据集ds1的字段内容,后面将ds1名字改成ds2,模板主体内容会自动变成引用ds2。15. 有时我们希望将模板发送给别人修改,导出模板时需要附带导出内置数据,导出时其实是作为两个文件存在的。17. FineBI可以将FineReport制作的报表挂出,并且可以集成到FineBI制作的仪表板中。答案: A. 左合并, B. 右合并, C. 并集合并, D. 交集合并。3. 模板单元格中,左侧下方有黄色三角形,表示什么意思?11. if(3==3,1,2)结果是什么?

2024-10-14 08:14:05 609 1

原创 Redis的安装和简单试玩

Redis是数据库。是一个NoSQL 数据库,是基于内存的,可以当做缓存使用,使用频率相当高,NoSQL即Not-Only SQL(不仅仅是SQL)

2024-09-24 20:23:36 852

原创 开源数据同步中间件(Dbsyncer)简单玩一下 mysql to mysql 的增量,全量配置

Dbsyncer是一款开源的数据同步中间件,提供MySQL、Oracle、SqlServer、PostgreSQL、Elasticsearch(ES)、Kafka、File、SQL等同步场景,支持上传插件自定义同步转换业务,提供监控全量和增量数据统计图、应用性能预警等。

2024-09-13 20:12:57 6375

原创 DataGrip或者intellijIDEA 远程链接数据库的时候下载驱动失败 出现错误:https://download.jetbrains.com/idea/jdbc-drivers/Redis/

本人使用DataGrip版本:2023.1在链接数据库的时候出现这个错误,无法完全加载驱动,是因为这里的maven仓库下载驱动失败,这时候需要自己手动下载驱动。

2024-09-12 19:24:59 924

原创 spoon、mysql数据导入hive,分别使用hdfs导入,或者修改配置

通过sqoon将mysql的数据导入hive的两种方法

2024-09-12 19:11:09 846

原创 Hive的集群的搭建-内嵌模式-本地模式-远程链接

Hive 是一个框架,可以通过编写sql的方式,自动的编译为MR任务的一个工具Hive是一个数据仓库工,可以将数据加载到表中,编写sql进行分析,底层依赖Hadoop,所以每一次都需要启动hadoop(hdfs以及yarn),Hive的底层计算框架可以使用MR、也可以使用Spark、TEZ,Hive不是数据库,而是一个将MR包了一层壳儿。类似于一个中介。

2024-09-10 19:05:45 2585

原创 DolphinScheduler(海豚调度器)安装与试玩一下

DolphinScheduler部署

2024-09-09 19:37:06 2039

原创 Hive的一些基本函数(二)

如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。row_number从1开始,按照顺序,生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行排列。在over窗口中进行分组,对某一字段进行分组统计,窗口大小就是同一个组的所有记录(按照所给字段分组)当查询的要求,既要明细查询又要统计查询的时候,这时候考虑开窗,通过over语法让两种查询同时执行。需求:获取一个表中,所有消费记录中,每一个人,最后50%的消费记录。

2024-09-07 14:25:47 453 1

原创 Hive 的一些基本函数(一)

hive 中的一些基本函数,常用的使用方法

2024-09-07 11:05:28 616 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除