自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 【详细讲解】spark优化

我们可以从性能,算子,shuffle 过程以及 jvm 四个方面展开优化。

2025-02-07 09:35:31 983 1

原创 【详细讲解】如何处理小文件

通过合并、压缩、删除、设置过期时间等方法,我们可以有效地治理小文件问题,提高HDFS的存储效率和数据处理能力。压缩后的文件在HDFS上存储,不仅可以减少存储空间,还可以减少文件数量,提高处理效率。将多个小文件合并成一个大文件,减少文件数量。:对于一些小文件,可以考虑使用非HDFS的存储方式,如关系型数据库或NoSQL数据库,使数据存储更加灵活和高效。分区下,有很多小文件,例如一个分区有1000个文件,但每个文件大小是10k,数仓大量这种小文件。文件的处理为例,我们可以使用Hive的重写方式来合并小文件。

2025-02-07 09:13:53 826

原创 Flink报错Caused by: java.io.FileNotFoundException: /home/wc.txt

原因是:你的 taskManager 有三台,你的数据只在本地存放一份,所以需要将数据分发给 bigdata02 和 bigdata03。

2025-02-01 15:29:21 566

原创 【快速上手】阿里云百炼大模型

为了创建自己的知识库,本文介绍一下阿里云的百炼大模型,方便大家快速上手!快速查询自己想要的内容。

2025-01-27 15:13:36 1148

原创 【详细讲解】hive优化

不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个job的执行时间缩短。而且,同时可执行的map数是受限的。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时。当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。

2024-12-28 20:15:36 1047

原创 【快速上手】Doris的安装与部署

分析型(OLAP)数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris 的分布式架构非常简洁,易于运维,并且可以支持 10PB 以上的超大数据集。Apache Doris 可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。Apache Doris 是一个现代化的 MPP(Massively Parallel Processing,即大规模并行处理),它的特点有: 1、分布式部署2、列式存储3、支持sql,注重分析。

2024-12-23 10:00:54 2078

原创 SQL连续登录问题(详细案例分析)

2、最近一个月内,连续活跃[1-10)天的人数,[10-20)天的人数,[20+ 天的人数。3、最近一个月内,沉默天数超过3天的有多少人,超过5天有多少人。1、最近一个月内,每个用户的最大连续活跃天数。

2024-12-10 20:43:20 643

原创 报错:org.apache.hive.service.cli.HiveSQLException: Error running query: org.apache.spark.sql.AnalysisE

报错:org.apache.hive.service.cli.HiveSQLException: Error running query: org.apache.spark.sql.AnalysisE

2024-12-09 14:57:02 417

原创 报错:No module named ‘pygeohash‘

报错:No module named 'pygeohash'

2024-12-05 15:22:44 206

原创 遇到问题:hive中的数据库和sparksql 操作的数据库不是同一个。

2、查询服务器中MySQL中hive的数据库,发现创建的位置没有在hdfs上,而是在本地。上述截图创建的位置是在hdfs上 同步的!2、将hive-site.xml 复制到 spark的conf 下。1、hive中的数据库和sparksql 操作的数据库不同步。使用datagrip 重新连接一下,记得刷新一下连接。1、在hive 下修改hive-site.xml。3、修改spark下的hive-site.xml。如果你的不同步,可以试一下如下这个办法。观察上面的数据库看是否同步!

2024-12-03 15:04:42 490

原创 【详细介绍及演示】Flink之checkpoint检查点的使用

快照点, 是Flink中所有有状态的Operator在某一个时刻的State快照信息/存档信息。一句话概括:Checkpoint就是State的快照。savePointcheckpoint自动完成state快照、savePoint是手动的完成快照。如果程序在没有设置checkpoint的情况,可以通过savePoint设置state快照有两种添加检查点的方式:1、在java代码中自动添加在执行任务时会在hdfs上创建检查点// 第一句:开启快照,每隔1s保存一次快照。

2024-11-27 20:45:47 3444

原创 Flink报错:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlExc

【代码】Flink报错:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlExc。

2024-11-27 19:36:38 360

原创 java的hashmap的底层设计原理以及扩容规则

jdk1.8及以后采用数组加链表加红黑树,链表超阈值且数组满足条件会转红黑树。jdk1.7以前采用数组加链表。double:8字节(64位)boolean:1字节(8位)short:2字节(16位)float:4字节(32位)long:8字节(64位)char:2字节(16位)hashmap线程不安全。byte:1字节(8位)int:4字节(32位)

2024-11-21 20:36:11 437

原创 【快速上手】Flink的安装部署(Standalone集群模式)

Flink支持多种安装模式。local(本地)——本地模式standalone——独立模式,Flink自带集群,开发测试环境使用standaloneHA—独立集群高可用模式,Flink自带集群,开发测试环境使用yarn——计算资源统一由Hadoop YARN管理,生产环境测试本文介绍一下standalone集群模式的安装部署!

2024-11-20 16:21:06 1602

原创 java创建多线程的四种方式

java创建多线程有四种方式:1、继承thread类 2、实现runnable接口 3、实现callable接口 4、通过java的线程池获得。

2024-11-18 20:31:35 587

原创 【开窗函数】三个SQL题

本文主要练习一下lag开窗函数的使用!!!

2024-11-17 23:28:02 640

原创 kafka和Flume的整合

在窗口不断的发送文本数据,数据被抽取到了kafka中,如何获取kafka数据呢?启动一个消息生产者,向topic中发送消息,启动flume,接收消息。

2024-11-12 20:51:52 2051

原创 【快速解决】kafka崩了,重启之后,想继续消费,怎么做?

假如遇到kafka崩了,你重启kafka之后,想要继续消费,应该怎么办?下面是解决这个问题的具体步骤!!!

2024-11-12 20:19:35 1786

原创 【快速上手】Kafka-Eagle 监控的安装部署

在生产过程中,想创建topic、查看所有topic、想查看某个topic 、想查看分区等,都需要写命令,能不能有一个图形化的界面,让我们操作呢?Kafka-Eagle 框架就可以监控 Kafka 集群的整体运行情况,在生产环境中经常使用。本文介绍的就是Kafka-Eagle 框架的安装部署。

2024-11-11 20:46:41 1636

原创 kafka面试夺命30问

假如Follower挂掉了,Leader和其他的Follower 继续往前存储数据,挂掉的节点从ISR集合中剔除,此时挂掉的Follower又重启了,它会先从上一次挂掉的节点的HW(最高水位线)开始同步数据,直到追上最后一个Follower为止,此时会重新回归ISR。首先会从ISR中选出一个新的Leader,紧接着其余的Follower会将各自的log文件高于HW的部分截掉,然后从新的Leader同步数据。2、生成一个负载均衡的计划:创建完之后执行这个json文件命令,生成一个负载均衡的计划。

2024-11-09 12:17:46 948

原创 【快速入门】Kafka的安装部署

前提:在安装Kafka前要确保你的集群中有zookeeper我的三台服务器分别是bigdata01,bigdata02,bigdata03,并且修改了本机的hosts文件!

2024-11-09 12:02:41 4187

原创 SQL题:使用hive查询各类型专利top 10申请人,以及对应的专利申请数

1、表名:t_patent_detail (专利明细表)2、表字段:专利号(patent_id)、专利名称(patent_name)、专利类型(patent_type)、申请时间(aplly_date)、授权时间(authorize_date)、申请人(apply_users)3、说明:同一个专利,可以有1到多个申请人,多人之间按分号隔开。本表记录数约1万条。请写出hive查询语句,各类型专利top 10申请人,以及对应的专利申请数。

2024-11-07 19:40:03 561

原创 【抽取数据简单方式】spark实现hive中数据抽取到MySQL

spark实现hive中数据抽取到MySQL

2024-11-06 20:39:59 832

原创 SparkSQL的自定义函数

UDF:一对一的函数【User Defined Functions】UDAF:多对一的函数【User Defined Aggregation Functions】 聚合函数UDTF:一对多的函数【User Defined Tabular Functions】- explode、json_tuple【解析JSON格式】、parse_url_tuple【解析URL函数】Spark中支持UDF和UDAF两种,本文主要介绍Pyspark中的UDF定义的方式!

2024-11-06 19:44:41 1008

原创 蚂蚁数据研发SQL面试题

计算20241011日所有贷款用户对应的风险等级

2024-11-06 13:30:29 692

原创 Spark中给读取到的数据 的列 重命名的几种方式!

(注意:csv会自动按照“,”给切分开 可以指定 option(sep,"\t")自定义切分符)withColumnRenamed("默认列名","自定义列名")toDF("列名","列名","列名")自定义表结构schema。

2024-11-06 08:18:21 992

原创 sql中判断一个字段是否包含一个数据的方法有哪些?

以下是几种方法,使用hive来举例演示一下:问题:查询名字里带 "i" 的人。

2024-11-05 19:40:48 2385

原创 spark的RDD分区的设定规则

假如你这个data.txt = 500M ,此时的分区数是:4 因为 500 = 128+ 128+ 128+ 116。总结:假如指定了分区数,分区数就是这个,假如没有指定spark.default.parallelism。上面配置Executor的数量为5,每个Executor的CPU Core数量为2,executor上的总核数10,则默认并行度为Max(10,2)=10。默认并行度取决于所有executor上的总核数与2的最大值。默认并行度取决于本地机器的核数。

2024-11-04 20:41:40 697

原创 Spark中的宽窄依赖

这里通过一张图来解释:result_rdd是由tuple_rdd使用reduceByKey算子得到的, 而tuple_rdd是由word_rdd使用map算子得到的,word_rdd又是由input_rdd使用flatMap算子得到的。它们之间的关系就称为依赖关系!窄依赖:父RDD的一个分区的数据只给了子RDD的一个分区 【不用经过Shuffle】一对一或者多对一不经过Shuffle,性能相对较快, 但无法实现全局分区、排序、分组等一个Stage内部的计算都是窄依赖的过程,全部在内存中 完成。宽依赖。

2024-11-04 20:14:51 816

原创 【快速上手】pyspark 集群环境下的搭建(Yarn模式)

上一篇介绍的是Spark的程序运行在standalone模式,这篇是Yarn模式!!!为什么要将Spark的程序运行在YARN上,不运行在自带的 Standalone集群上?统一化资源管理Standalone是Spark专用的资源管理集群,只能用于运行 Spark程序YARN是功能的分布式资源管理平台,可以运行各种分布式程 序:MR、Tez、Spark、Flink工作中硬件集群只有一套,只能选择一个平台来管理,从整个技术架构来说选择YARN更合适YARN调度机制更加完善和成熟。

2024-10-31 20:34:52 1285

原创 【快速上手】pyspark 集群环境下的搭建(Standalone模式)

spark有五种运行模式,本文介绍在集群环境下Standalone模式的搭建!!!YARN模式请前往下篇文章。

2024-10-31 13:38:17 1483

原创 ‘cmd‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。

一般Path路径下都是有C:\Windows\System32 的,所以具体问题具体分析,如果你的没有并且报这个错误,可以试一试这个方法!我在使用python执行一个spark任务时,一直报如下错误,检查电脑上所有的环境变量后发现都配置正确,但还是一直。2.在Path路径下添加:C:\Windows\System32。这个错误,如果你也有这样的情况,可以试一试下面这个方法。报'cmd' 不是内部或外部命令,也不是可运行的程序。1.检查确保有ComSpec这个系统变量。

2024-10-29 20:37:20 474

原创 后裔采集器的安装与使用

东湖的评论网址搜索方法:打开携程 搜索东湖 点击评论 复制网址链接①大致流程和上面一样,这里选择流程图模式:②点击开始采集,输入网址后进行自定义,按照操作提示进行操作:注意:这里最后翻页的"点击"要将新标签选择“是” 这样才能实现自动翻页 ,否则不会跳转翻页!!!接下来的步骤以及设置就和第一个案例一样了!补充:1.还有很多复杂的爬取数据方法 可以使用流程图模式实现!2.与八爪鱼采集器相比,后裔采集器的一个优点是可以爬取折叠的评论, 使用流程图模式即可实现!t=O83A。

2024-10-21 20:43:52 2494 2

原创 python 编写 学生管理系统

【代码】python 编写 学生管理系统。

2024-10-20 14:22:23 455

原创 python 猜数字游戏

设计一个猜数字游戏,程序会随机生成一个1~100之间的整数,然后让用户猜这个数字是多少。

2024-10-18 08:46:15 602 1

原创 python实现:两个自然数 X,Y 相除,商 3 余 10,被除数、除数、商、余数的和是 163。求被除数、除数分别是多少?

两个自然数 X,Y 相除,商 3 余 10,被除数、除数、商、余数的和是 163。求被除数、除数分别是多少。被除数为:115、除数为:35。

2024-10-16 20:47:33 496

原创 Flume抽取数据(包含自定义拦截器和时间戳拦截器)

使用Flume将日志抽取到hdfs上:通过java代码编写一个拦截器,将日志中不是json数据的数据过滤掉,只保留符合json格式的数据,抽出到hdfs中的数据要有日期路径。Flume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了。假如hdfs中使用了时间转义字符,此时必须指定时间,两种方案。②将使用java写好的jar包导入到flume的lib下。①首先确保hdfs的服务是开启的。## 控制输出文件是原生文件。(1)使用本地时间戳。(2)使用时间拦截器。

2024-10-15 20:37:36 881

原创 FinbeBi的20个面试题

FinbeBi的20个面试题

2024-10-13 18:04:07 376

原创 Caused by: java.lang.ClassCastException: java.lang.String cannot be cast to java.util.List

报错:Caused by: java.lang.ClassCastException: java.lang.String cannot be cast to java.util.List

2024-09-27 11:51:17 652

原创 使用dolphinscheduler在shell组件编写sqoop命令时遇到的错误

使用dolphinscheduler在shell组件编写sqoop命令时遇到的错误

2024-09-25 20:40:30 664

pycharm 2023.2.3版本安装包

pycharm 2023.2.3版本安装包

2024-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除