- 博客(19)
- 收藏
- 关注
原创 Flink中API的使用
预定义Source基于本地集合的source(Collection-based-source)基于文件的source(File-based-source)基于网络套接字(socketTextStream)自定义Source在flink最常见的创建DataStream方式有四种:使用env.fromElements(),这种方式也支持Tuple,自定义对象等复合形式使用env.fromCollection(),这种方式支持多种Collection的具体类型,如List,Set,Queue。
2024-11-25 20:11:25
1167
原创 Fink的安装与入门
将资料下的flink-shaded-hadoop-2-uber-2.7.5-10.0.jar放到flink的lib目录下。Flink官方提供了Java、Scala、Python语言接口用以开发Flink应用程序。cd到flink的conf文件下flink/conf/flink-conf.yaml。standaloneHA—独立集群高可用模式,Flink自带集群,开发测试环境使用。standalone——独立模式,Flink自带集群,开发测试环境使用。local(本地)——本地模式。将配置分发给三台虚拟机。
2024-11-25 19:13:36
528
原创 spark 的自定义函数
r方语法:UDF变量名 = spark.udf.register(UDF函数名, 函数的处理逻辑DSL中调用UDF使用的SQL中调用UDF使用举例数据:01 周杰伦 150/17502 周杰 130/18503 周华健 148/17804 周星驰 130/17505 闫妮 110/180将以上数据,通过自定义函数,变为如下数据:01 周杰伦 150斤/175cm。
2024-11-11 20:49:58
938
原创 kafka 的一些问题,夺命15连问后续
可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前, 考虑上一次分配的结果,尽量少的调整分配的变动,可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略,首先会尽量均衡的放置分区 到消费者上面,在出现同一消费者组内消费者出现问题的时候,会尽量保持原有分配的分区不变化。CooperativeSticky 的解释【新的kafka中刚添加的策略】:
2024-11-11 20:39:04
1115
1
原创 Kafka 的一些问题,夺命15连问
kafka-中的组成员kafka四大核心生产者API允许应用程序发布记录流至一个或者多个kafka的主题(topics)。消费者API允许应用程序订阅一个或者多个主题,并处理这些主题接收到的记录流StreamsAPI允许应用程序充当流处理器(stream processor),从一个或者多个主题获取输入流,并生产一个输出流到一个或 者多个主题,能够有效的变化输入流为输出流。允许构建和运行可重用的生产者或者消费者,能够把kafka主题连接到现有的应用程序或数据系统。
2024-11-09 14:51:27
2406
1
原创 如何使用SparkSQL在hive中使用Spark的引擎计算
在hive中,由于hive自带的计算引擎计算比较慢,这个时候可以使用spark替换hive的计算引擎,可以增加hive的计算速度。在替换之前,首先虚拟机上要有spark的集群模式,spark 的yarn集群模式,需要hdfs,yran,hive# 启动HDFS服务:NameNode和DataNodes# 启动HiveMetaStore 服务我这里hive的服务全部启动了,也可以单独启动iveMetaStore# 设置Spark日志级别。
2024-11-06 20:40:06
1557
原创 Spark中的shuffle过程详细
全局分组:reduceByKey,groupByKey全局排序:sortBy,sortByKey增大分区:repartition,coalesecoalesce(根据情况) join / fullOuterJoin / leftOuterJoin / rightOuterJoin。
2024-11-06 20:15:03
966
原创 关于pysqark,算子部分的面试题
repartition(重分区算子)、coalesce(重分区算子)、keys、values、mapvalues、join、fullOuterjoin、leftOuterJoin、rightOuterjoin、转换算子:union、distinct、reduceByKey、groupByKey、map、sortBy、sortByKey、分区算子:mapPartttions、foreachParition。
2024-10-31 20:50:37
218
原创 4种排序方式比较:order by, sort by, distribute by, cluster by
4种排序方式:order by, sort by, distribute by, cluster by。
2024-10-31 20:34:23
383
原创 Power BI 的下载安装和试玩
会自动转跳win的商城,因为Power BI是微软的软件,如果使用的是微软的正版系统,可以直接跳转商城自动下载。会给一个exe文件的下载器,选择安装安装位置,后自动安装,安装结束之后会自动跳转到商城页面,然后打开。然后会提示缺少插件,会提示没有插件,点击了解详细信息,进去下载插件,安装插件,之后就可使用。然后链接数据库,我这里链接的的是阿里云的云数据库。选择自己要用的数据,然后点击加载。然后加载结束以后,右侧会出现数据。进入界面,然后选择链接数据库。然后右侧选择视图,选择数据,选择MySql数据库。
2024-10-14 19:29:42
421
原创 finebi的20个面试题
4. 模板页面已经引用数据集ds1的字段内容,后面将ds1名字改成ds2,模板主体内容会自动变成引用ds2。15. 有时我们希望将模板发送给别人修改,导出模板时需要附带导出内置数据,导出时其实是作为两个文件存在的。17. FineBI可以将FineReport制作的报表挂出,并且可以集成到FineBI制作的仪表板中。答案: A. 左合并, B. 右合并, C. 并集合并, D. 交集合并。3. 模板单元格中,左侧下方有黄色三角形,表示什么意思?11. if(3==3,1,2)结果是什么?
2024-10-14 08:14:05
609
1
原创 Redis的安装和简单试玩
Redis是数据库。是一个NoSQL 数据库,是基于内存的,可以当做缓存使用,使用频率相当高,NoSQL即Not-Only SQL(不仅仅是SQL)
2024-09-24 20:23:36
852
原创 开源数据同步中间件(Dbsyncer)简单玩一下 mysql to mysql 的增量,全量配置
Dbsyncer是一款开源的数据同步中间件,提供MySQL、Oracle、SqlServer、PostgreSQL、Elasticsearch(ES)、Kafka、File、SQL等同步场景,支持上传插件自定义同步转换业务,提供监控全量和增量数据统计图、应用性能预警等。
2024-09-13 20:12:57
6375
原创 DataGrip或者intellijIDEA 远程链接数据库的时候下载驱动失败 出现错误:https://download.jetbrains.com/idea/jdbc-drivers/Redis/
本人使用DataGrip版本:2023.1在链接数据库的时候出现这个错误,无法完全加载驱动,是因为这里的maven仓库下载驱动失败,这时候需要自己手动下载驱动。
2024-09-12 19:24:59
924
原创 Hive的集群的搭建-内嵌模式-本地模式-远程链接
Hive 是一个框架,可以通过编写sql的方式,自动的编译为MR任务的一个工具Hive是一个数据仓库工,可以将数据加载到表中,编写sql进行分析,底层依赖Hadoop,所以每一次都需要启动hadoop(hdfs以及yarn),Hive的底层计算框架可以使用MR、也可以使用Spark、TEZ,Hive不是数据库,而是一个将MR包了一层壳儿。类似于一个中介。
2024-09-10 19:05:45
2585
原创 Hive的一些基本函数(二)
如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。row_number从1开始,按照顺序,生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行排列。在over窗口中进行分组,对某一字段进行分组统计,窗口大小就是同一个组的所有记录(按照所给字段分组)当查询的要求,既要明细查询又要统计查询的时候,这时候考虑开窗,通过over语法让两种查询同时执行。需求:获取一个表中,所有消费记录中,每一个人,最后50%的消费记录。
2024-09-07 14:25:47
453
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人