- 博客(52)
- 收藏
- 关注
原创 【详细讲解】如何处理小文件
通过合并、压缩、删除、设置过期时间等方法,我们可以有效地治理小文件问题,提高HDFS的存储效率和数据处理能力。压缩后的文件在HDFS上存储,不仅可以减少存储空间,还可以减少文件数量,提高处理效率。将多个小文件合并成一个大文件,减少文件数量。:对于一些小文件,可以考虑使用非HDFS的存储方式,如关系型数据库或NoSQL数据库,使数据存储更加灵活和高效。分区下,有很多小文件,例如一个分区有1000个文件,但每个文件大小是10k,数仓大量这种小文件。文件的处理为例,我们可以使用Hive的重写方式来合并小文件。
2025-02-07 09:13:53
826
原创 Flink报错Caused by: java.io.FileNotFoundException: /home/wc.txt
原因是:你的 taskManager 有三台,你的数据只在本地存放一份,所以需要将数据分发给 bigdata02 和 bigdata03。
2025-02-01 15:29:21
566
原创 【详细讲解】hive优化
不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个job的执行时间缩短。而且,同时可执行的map数是受限的。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时。当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。
2024-12-28 20:15:36
1047
原创 【快速上手】Doris的安装与部署
分析型(OLAP)数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris 的分布式架构非常简洁,易于运维,并且可以支持 10PB 以上的超大数据集。Apache Doris 可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。Apache Doris 是一个现代化的 MPP(Massively Parallel Processing,即大规模并行处理),它的特点有: 1、分布式部署2、列式存储3、支持sql,注重分析。
2024-12-23 10:00:54
2078
原创 SQL连续登录问题(详细案例分析)
2、最近一个月内,连续活跃[1-10)天的人数,[10-20)天的人数,[20+ 天的人数。3、最近一个月内,沉默天数超过3天的有多少人,超过5天有多少人。1、最近一个月内,每个用户的最大连续活跃天数。
2024-12-10 20:43:20
643
原创 报错:org.apache.hive.service.cli.HiveSQLException: Error running query: org.apache.spark.sql.AnalysisE
报错:org.apache.hive.service.cli.HiveSQLException: Error running query: org.apache.spark.sql.AnalysisE
2024-12-09 14:57:02
417
原创 遇到问题:hive中的数据库和sparksql 操作的数据库不是同一个。
2、查询服务器中MySQL中hive的数据库,发现创建的位置没有在hdfs上,而是在本地。上述截图创建的位置是在hdfs上 同步的!2、将hive-site.xml 复制到 spark的conf 下。1、hive中的数据库和sparksql 操作的数据库不同步。使用datagrip 重新连接一下,记得刷新一下连接。1、在hive 下修改hive-site.xml。3、修改spark下的hive-site.xml。如果你的不同步,可以试一下如下这个办法。观察上面的数据库看是否同步!
2024-12-03 15:04:42
490
原创 【详细介绍及演示】Flink之checkpoint检查点的使用
快照点, 是Flink中所有有状态的Operator在某一个时刻的State快照信息/存档信息。一句话概括:Checkpoint就是State的快照。savePointcheckpoint自动完成state快照、savePoint是手动的完成快照。如果程序在没有设置checkpoint的情况,可以通过savePoint设置state快照有两种添加检查点的方式:1、在java代码中自动添加在执行任务时会在hdfs上创建检查点// 第一句:开启快照,每隔1s保存一次快照。
2024-11-27 20:45:47
3444
原创 Flink报错:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlExc
【代码】Flink报错:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlExc。
2024-11-27 19:36:38
360
原创 java的hashmap的底层设计原理以及扩容规则
jdk1.8及以后采用数组加链表加红黑树,链表超阈值且数组满足条件会转红黑树。jdk1.7以前采用数组加链表。double:8字节(64位)boolean:1字节(8位)short:2字节(16位)float:4字节(32位)long:8字节(64位)char:2字节(16位)hashmap线程不安全。byte:1字节(8位)int:4字节(32位)
2024-11-21 20:36:11
437
原创 【快速上手】Flink的安装部署(Standalone集群模式)
Flink支持多种安装模式。local(本地)——本地模式standalone——独立模式,Flink自带集群,开发测试环境使用standaloneHA—独立集群高可用模式,Flink自带集群,开发测试环境使用yarn——计算资源统一由Hadoop YARN管理,生产环境测试本文介绍一下standalone集群模式的安装部署!
2024-11-20 16:21:06
1602
原创 java创建多线程的四种方式
java创建多线程有四种方式:1、继承thread类 2、实现runnable接口 3、实现callable接口 4、通过java的线程池获得。
2024-11-18 20:31:35
587
原创 kafka和Flume的整合
在窗口不断的发送文本数据,数据被抽取到了kafka中,如何获取kafka数据呢?启动一个消息生产者,向topic中发送消息,启动flume,接收消息。
2024-11-12 20:51:52
2051
原创 【快速解决】kafka崩了,重启之后,想继续消费,怎么做?
假如遇到kafka崩了,你重启kafka之后,想要继续消费,应该怎么办?下面是解决这个问题的具体步骤!!!
2024-11-12 20:19:35
1786
原创 【快速上手】Kafka-Eagle 监控的安装部署
在生产过程中,想创建topic、查看所有topic、想查看某个topic 、想查看分区等,都需要写命令,能不能有一个图形化的界面,让我们操作呢?Kafka-Eagle 框架就可以监控 Kafka 集群的整体运行情况,在生产环境中经常使用。本文介绍的就是Kafka-Eagle 框架的安装部署。
2024-11-11 20:46:41
1636
原创 kafka面试夺命30问
假如Follower挂掉了,Leader和其他的Follower 继续往前存储数据,挂掉的节点从ISR集合中剔除,此时挂掉的Follower又重启了,它会先从上一次挂掉的节点的HW(最高水位线)开始同步数据,直到追上最后一个Follower为止,此时会重新回归ISR。首先会从ISR中选出一个新的Leader,紧接着其余的Follower会将各自的log文件高于HW的部分截掉,然后从新的Leader同步数据。2、生成一个负载均衡的计划:创建完之后执行这个json文件命令,生成一个负载均衡的计划。
2024-11-09 12:17:46
948
原创 【快速入门】Kafka的安装部署
前提:在安装Kafka前要确保你的集群中有zookeeper我的三台服务器分别是bigdata01,bigdata02,bigdata03,并且修改了本机的hosts文件!
2024-11-09 12:02:41
4187
原创 SQL题:使用hive查询各类型专利top 10申请人,以及对应的专利申请数
1、表名:t_patent_detail (专利明细表)2、表字段:专利号(patent_id)、专利名称(patent_name)、专利类型(patent_type)、申请时间(aplly_date)、授权时间(authorize_date)、申请人(apply_users)3、说明:同一个专利,可以有1到多个申请人,多人之间按分号隔开。本表记录数约1万条。请写出hive查询语句,各类型专利top 10申请人,以及对应的专利申请数。
2024-11-07 19:40:03
561
原创 SparkSQL的自定义函数
UDF:一对一的函数【User Defined Functions】UDAF:多对一的函数【User Defined Aggregation Functions】 聚合函数UDTF:一对多的函数【User Defined Tabular Functions】- explode、json_tuple【解析JSON格式】、parse_url_tuple【解析URL函数】Spark中支持UDF和UDAF两种,本文主要介绍Pyspark中的UDF定义的方式!
2024-11-06 19:44:41
1008
原创 Spark中给读取到的数据 的列 重命名的几种方式!
(注意:csv会自动按照“,”给切分开 可以指定 option(sep,"\t")自定义切分符)withColumnRenamed("默认列名","自定义列名")toDF("列名","列名","列名")自定义表结构schema。
2024-11-06 08:18:21
992
原创 spark的RDD分区的设定规则
假如你这个data.txt = 500M ,此时的分区数是:4 因为 500 = 128+ 128+ 128+ 116。总结:假如指定了分区数,分区数就是这个,假如没有指定spark.default.parallelism。上面配置Executor的数量为5,每个Executor的CPU Core数量为2,executor上的总核数10,则默认并行度为Max(10,2)=10。默认并行度取决于所有executor上的总核数与2的最大值。默认并行度取决于本地机器的核数。
2024-11-04 20:41:40
697
原创 Spark中的宽窄依赖
这里通过一张图来解释:result_rdd是由tuple_rdd使用reduceByKey算子得到的, 而tuple_rdd是由word_rdd使用map算子得到的,word_rdd又是由input_rdd使用flatMap算子得到的。它们之间的关系就称为依赖关系!窄依赖:父RDD的一个分区的数据只给了子RDD的一个分区 【不用经过Shuffle】一对一或者多对一不经过Shuffle,性能相对较快, 但无法实现全局分区、排序、分组等一个Stage内部的计算都是窄依赖的过程,全部在内存中 完成。宽依赖。
2024-11-04 20:14:51
816
原创 【快速上手】pyspark 集群环境下的搭建(Yarn模式)
上一篇介绍的是Spark的程序运行在standalone模式,这篇是Yarn模式!!!为什么要将Spark的程序运行在YARN上,不运行在自带的 Standalone集群上?统一化资源管理Standalone是Spark专用的资源管理集群,只能用于运行 Spark程序YARN是功能的分布式资源管理平台,可以运行各种分布式程 序:MR、Tez、Spark、Flink工作中硬件集群只有一套,只能选择一个平台来管理,从整个技术架构来说选择YARN更合适YARN调度机制更加完善和成熟。
2024-10-31 20:34:52
1285
原创 【快速上手】pyspark 集群环境下的搭建(Standalone模式)
spark有五种运行模式,本文介绍在集群环境下Standalone模式的搭建!!!YARN模式请前往下篇文章。
2024-10-31 13:38:17
1483
原创 ‘cmd‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。
一般Path路径下都是有C:\Windows\System32 的,所以具体问题具体分析,如果你的没有并且报这个错误,可以试一试这个方法!我在使用python执行一个spark任务时,一直报如下错误,检查电脑上所有的环境变量后发现都配置正确,但还是一直。2.在Path路径下添加:C:\Windows\System32。这个错误,如果你也有这样的情况,可以试一试下面这个方法。报'cmd' 不是内部或外部命令,也不是可运行的程序。1.检查确保有ComSpec这个系统变量。
2024-10-29 20:37:20
474
原创 后裔采集器的安装与使用
东湖的评论网址搜索方法:打开携程 搜索东湖 点击评论 复制网址链接①大致流程和上面一样,这里选择流程图模式:②点击开始采集,输入网址后进行自定义,按照操作提示进行操作:注意:这里最后翻页的"点击"要将新标签选择“是” 这样才能实现自动翻页 ,否则不会跳转翻页!!!接下来的步骤以及设置就和第一个案例一样了!补充:1.还有很多复杂的爬取数据方法 可以使用流程图模式实现!2.与八爪鱼采集器相比,后裔采集器的一个优点是可以爬取折叠的评论, 使用流程图模式即可实现!t=O83A。
2024-10-21 20:43:52
2494
2
原创 python实现:两个自然数 X,Y 相除,商 3 余 10,被除数、除数、商、余数的和是 163。求被除数、除数分别是多少?
两个自然数 X,Y 相除,商 3 余 10,被除数、除数、商、余数的和是 163。求被除数、除数分别是多少。被除数为:115、除数为:35。
2024-10-16 20:47:33
496
原创 Flume抽取数据(包含自定义拦截器和时间戳拦截器)
使用Flume将日志抽取到hdfs上:通过java代码编写一个拦截器,将日志中不是json数据的数据过滤掉,只保留符合json格式的数据,抽出到hdfs中的数据要有日期路径。Flume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了。假如hdfs中使用了时间转义字符,此时必须指定时间,两种方案。②将使用java写好的jar包导入到flume的lib下。①首先确保hdfs的服务是开启的。## 控制输出文件是原生文件。(1)使用本地时间戳。(2)使用时间拦截器。
2024-10-15 20:37:36
881
原创 Caused by: java.lang.ClassCastException: java.lang.String cannot be cast to java.util.List
报错:Caused by: java.lang.ClassCastException: java.lang.String cannot be cast to java.util.List
2024-09-27 11:51:17
652
原创 使用dolphinscheduler在shell组件编写sqoop命令时遇到的错误
使用dolphinscheduler在shell组件编写sqoop命令时遇到的错误
2024-09-25 20:40:30
664
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人