songqq27-优快云博客

原创【详细讲解】spark优化

我们可以从性能，算子，shuffle 过程以及 jvm 四个方面展开优化。

2025-02-07 09:35:31 983 1

通过合并、压缩、删除、设置过期时间等方法，我们可以有效地治理小文件问题，提高HDFS的存储效率和数据处理能力。压缩后的文件在HDFS上存储，不仅可以减少存储空间，还可以减少文件数量，提高处理效率。将多个小文件合并成一个大文件，减少文件数量。：对于一些小文件，可以考虑使用非HDFS的存储方式，如关系型数据库或NoSQL数据库，使数据存储更加灵活和高效。分区下，有很多小文件，例如一个分区有1000个文件，但每个文件大小是10k，数仓大量这种小文件。文件的处理为例，我们可以使用Hive的重写方式来合并小文件。

2025-02-07 09:13:53 826

原创 Flink报错Caused by: java.io.FileNotFoundException: /home/wc.txt

原因是：你的 taskManager 有三台，你的数据只在本地存放一份，所以需要将数据分发给 bigdata02 和 bigdata03。

2025-02-01 15:29:21 566

原创【快速上手】阿里云百炼大模型

为了创建自己的知识库，本文介绍一下阿里云的百炼大模型，方便大家快速上手！快速查询自己想要的内容。

2025-01-27 15:13:36 1148

原创【详细讲解】hive优化

不过，某个特定的job可能包含众多的阶段，而这些阶段可能并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个job的执行时间缩短。而且，同时可执行的map数是受限的。比如有一个127m的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时。当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。

2024-12-28 20:15:36 1047

原创【快速上手】Doris的安装与部署

分析型（OLAP）数据库产品。仅需亚秒级响应时间即可获得查询结果，有效地支持实时数据分析。Apache Doris 的分布式架构非常简洁，易于运维，并且可以支持 10PB 以上的超大数据集。Apache Doris 可以满足多种数据分析需求，例如固定历史报表，实时数据分析，交互式数据分析和探索式数据分析等。Apache Doris 是一个现代化的 MPP（Massively Parallel Processing，即大规模并行处理），它的特点有： 1、分布式部署2、列式存储3、支持sql，注重分析。

2024-12-23 10:00:54 2078

原创 SQL连续登录问题（详细案例分析）

2、最近一个月内，连续活跃[1-10)天的人数，[10-20)天的人数，[20+ 天的人数。3、最近一个月内，沉默天数超过3天的有多少人，超过5天有多少人。1、最近一个月内，每个用户的最大连续活跃天数。

2024-12-10 20:43:20 643

原创报错：org.apache.hive.service.cli.HiveSQLException: Error running query: org.apache.spark.sql.AnalysisE

报错：org.apache.hive.service.cli.HiveSQLException: Error running query: org.apache.spark.sql.AnalysisE

2024-12-09 14:57:02 417

原创报错：No module named ‘pygeohash‘

报错：No module named 'pygeohash'

2024-12-05 15:22:44 206

原创遇到问题：hive中的数据库和sparksql 操作的数据库不是同一个。

2、查询服务器中MySQL中hive的数据库，发现创建的位置没有在hdfs上，而是在本地。上述截图创建的位置是在hdfs上同步的！2、将hive-site.xml 复制到 spark的conf 下。1、hive中的数据库和sparksql 操作的数据库不同步。使用datagrip 重新连接一下，记得刷新一下连接。1、在hive 下修改hive-site.xml。3、修改spark下的hive-site.xml。如果你的不同步，可以试一下如下这个办法。观察上面的数据库看是否同步！

2024-12-03 15:04:42 490

原创【详细介绍及演示】Flink之checkpoint检查点的使用

快照点, 是Flink中所有有状态的Operator在某一个时刻的State快照信息/存档信息。一句话概括:Checkpoint就是State的快照。savePointcheckpoint自动完成state快照、savePoint是手动的完成快照。如果程序在没有设置checkpoint的情况，可以通过savePoint设置state快照有两种添加检查点的方式：1、在java代码中自动添加在执行任务时会在hdfs上创建检查点// 第一句：开启快照，每隔1s保存一次快照。

2024-11-27 20:45:47 3444

原创 Flink报错：Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlExc

【代码】Flink报错：Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlExc。

2024-11-27 19:36:38 360

原创 java的hashmap的底层设计原理以及扩容规则

jdk1.8及以后采用数组加链表加红黑树，链表超阈值且数组满足条件会转红黑树。jdk1.7以前采用数组加链表。double：8字节（64位）boolean：1字节（8位）short：2字节（16位）float：4字节（32位）long：8字节（64位）char：2字节（16位）hashmap线程不安全。byte:1字节（8位）int：4字节（32位）

2024-11-21 20:36:11 437

原创【快速上手】Flink的安装部署（Standalone集群模式）

Flink支持多种安装模式。local（本地）——本地模式standalone——独立模式，Flink自带集群，开发测试环境使用standaloneHA—独立集群高可用模式，Flink自带集群，开发测试环境使用yarn——计算资源统一由Hadoop YARN管理，生产环境测试本文介绍一下standalone集群模式的安装部署！

2024-11-20 16:21:06 1602

原创 java创建多线程的四种方式

java创建多线程有四种方式：1、继承thread类 2、实现runnable接口 3、实现callable接口 4、通过java的线程池获得。

2024-11-18 20:31:35 587

原创【开窗函数】三个SQL题

本文主要练习一下lag开窗函数的使用！！！

2024-11-17 23:28:02 640

原创 kafka和Flume的整合

在窗口不断的发送文本数据，数据被抽取到了kafka中，如何获取kafka数据呢？启动一个消息生产者，向topic中发送消息，启动flume,接收消息。

2024-11-12 20:51:52 2051

原创【快速解决】kafka崩了，重启之后，想继续消费，怎么做？

假如遇到kafka崩了，你重启kafka之后，想要继续消费，应该怎么办？下面是解决这个问题的具体步骤！！！

2024-11-12 20:19:35 1786

原创【快速上手】Kafka-Eagle 监控的安装部署

在生产过程中，想创建topic、查看所有topic、想查看某个topic 、想查看分区等，都需要写命令，能不能有一个图形化的界面，让我们操作呢？Kafka-Eagle 框架就可以监控 Kafka 集群的整体运行情况，在生产环境中经常使用。本文介绍的就是Kafka-Eagle 框架的安装部署。

2024-11-11 20:46:41 1636

原创 kafka面试夺命30问

假如Follower挂掉了，Leader和其他的Follower 继续往前存储数据，挂掉的节点从ISR集合中剔除，此时挂掉的Follower又重启了，它会先从上一次挂掉的节点的HW（最高水位线）开始同步数据，直到追上最后一个Follower为止,此时会重新回归ISR。首先会从ISR中选出一个新的Leader,紧接着其余的Follower会将各自的log文件高于HW的部分截掉，然后从新的Leader同步数据。2、生成一个负载均衡的计划：创建完之后执行这个json文件命令，生成一个负载均衡的计划。

2024-11-09 12:17:46 948

原创【快速入门】Kafka的安装部署

前提：在安装Kafka前要确保你的集群中有zookeeper我的三台服务器分别是bigdata01,bigdata02,bigdata03,并且修改了本机的hosts文件!

2024-11-09 12:02:41 4187

原创 SQL题：使用hive查询各类型专利top 10申请人，以及对应的专利申请数

1、表名：t_patent_detail （专利明细表）2、表字段：专利号(patent_id)、专利名称(patent_name)、专利类型(patent_type)、申请时间(aplly_date)、授权时间(authorize_date)、申请人(apply_users)3、说明：同一个专利，可以有1到多个申请人，多人之间按分号隔开。本表记录数约1万条。请写出hive查询语句，各类型专利top 10申请人，以及对应的专利申请数。

2024-11-07 19:40:03 561

原创【抽取数据简单方式】spark实现hive中数据抽取到MySQL

spark实现hive中数据抽取到MySQL

2024-11-06 20:39:59 832

原创 SparkSQL的自定义函数

UDF：一对一的函数【User Defined Functions】UDAF：多对一的函数【User Defined Aggregation Functions】聚合函数UDTF：一对多的函数【User Defined Tabular Functions】- explode、json_tuple【解析JSON格式】、parse_url_tuple【解析URL函数】Spark中支持UDF和UDAF两种，本文主要介绍Pyspark中的UDF定义的方式！

2024-11-06 19:44:41 1008

原创蚂蚁数据研发SQL面试题

计算20241011日所有贷款用户对应的风险等级

2024-11-06 13:30:29 692

原创 Spark中给读取到的数据的列重命名的几种方式！

（注意：csv会自动按照“，”给切分开可以指定 option(sep,"\t")自定义切分符）withColumnRenamed（"默认列名","自定义列名"）toDF("列名","列名","列名")自定义表结构schema。

2024-11-06 08:18:21 992

原创 sql中判断一个字段是否包含一个数据的方法有哪些？

以下是几种方法，使用hive来举例演示一下：问题：查询名字里带 "i" 的人。

2024-11-05 19:40:48 2385

原创 spark的RDD分区的设定规则

假如你这个data.txt = 500M ，此时的分区数是:4 因为 500 = 128+ 128+ 128+ 116。总结：假如指定了分区数，分区数就是这个，假如没有指定spark.default.parallelism。上面配置Executor的数量为5，每个Executor的CPU Core数量为2，executor上的总核数10，则默认并行度为Max(10,2)=10。默认并行度取决于所有executor上的总核数与2的最大值。默认并行度取决于本地机器的核数。

2024-11-04 20:41:40 697

原创 Spark中的宽窄依赖

这里通过一张图来解释：result_rdd是由tuple_rdd使用reduceByKey算子得到的，而tuple_rdd是由word_rdd使用map算子得到的，word_rdd又是由input_rdd使用flatMap算子得到的。它们之间的关系就称为依赖关系！窄依赖：父RDD的一个分区的数据只给了子RDD的一个分区【不用经过Shuffle】一对一或者多对一不经过Shuffle，性能相对较快，但无法实现全局分区、排序、分组等一个Stage内部的计算都是窄依赖的过程，全部在内存中完成。宽依赖。

2024-11-04 20:14:51 816

原创【快速上手】pyspark 集群环境下的搭建（Yarn模式）

上一篇介绍的是Spark的程序运行在standalone模式，这篇是Yarn模式！！！为什么要将Spark的程序运行在YARN上，不运行在自带的 Standalone集群上？统一化资源管理Standalone是Spark专用的资源管理集群，只能用于运行 Spark程序YARN是功能的分布式资源管理平台，可以运行各种分布式程序：MR、Tez、Spark、Flink工作中硬件集群只有一套，只能选择一个平台来管理，从整个技术架构来说选择YARN更合适YARN调度机制更加完善和成熟。

2024-10-31 20:34:52 1285

原创【快速上手】pyspark 集群环境下的搭建（Standalone模式）

spark有五种运行模式，本文介绍在集群环境下Standalone模式的搭建！！！YARN模式请前往下篇文章。

2024-10-31 13:38:17 1483

原创 ‘cmd‘ 不是内部或外部命令，也不是可运行的程序或批处理文件。

一般Path路径下都是有C:\Windows\System32 的，所以具体问题具体分析，如果你的没有并且报这个错误，可以试一试这个方法！我在使用python执行一个spark任务时，一直报如下错误，检查电脑上所有的环境变量后发现都配置正确，但还是一直。2.在Path路径下添加：C:\Windows\System32。这个错误，如果你也有这样的情况，可以试一试下面这个方法。报'cmd' 不是内部或外部命令，也不是可运行的程序。1.检查确保有ComSpec这个系统变量。

2024-10-29 20:37:20 474

原创后裔采集器的安装与使用

东湖的评论网址搜索方法：打开携程搜索东湖点击评论复制网址链接①大致流程和上面一样，这里选择流程图模式：②点击开始采集，输入网址后进行自定义，按照操作提示进行操作：注意：这里最后翻页的"点击"要将新标签选择“是” 这样才能实现自动翻页，否则不会跳转翻页！！！接下来的步骤以及设置就和第一个案例一样了！补充：1.还有很多复杂的爬取数据方法可以使用流程图模式实现！2.与八爪鱼采集器相比，后裔采集器的一个优点是可以爬取折叠的评论，使用流程图模式即可实现！t=O83A。

2024-10-21 20:43:52 2494 2

原创 python 编写学生管理系统

【代码】python 编写学生管理系统。

2024-10-20 14:22:23 455

原创 python 猜数字游戏

设计一个猜数字游戏，程序会随机生成一个1~100之间的整数，然后让用户猜这个数字是多少。

2024-10-18 08:46:15 602 1

原创 python实现：两个自然数 X，Y 相除，商 3 余 10，被除数、除数、商、余数的和是 163。求被除数、除数分别是多少？

两个自然数 X，Y 相除，商 3 余 10，被除数、除数、商、余数的和是 163。求被除数、除数分别是多少。被除数为：115、除数为：35。

2024-10-16 20:47:33 496

原创 Flume抽取数据（包含自定义拦截器和时间戳拦截器）

使用Flume将日志抽取到hdfs上：通过java代码编写一个拦截器，将日志中不是json数据的数据过滤掉，只保留符合json格式的数据，抽出到hdfs中的数据要有日期路径。Flume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了。假如hdfs中使用了时间转义字符，此时必须指定时间，两种方案。②将使用java写好的jar包导入到flume的lib下。①首先确保hdfs的服务是开启的。## 控制输出文件是原生文件。（1）使用本地时间戳。（2）使用时间拦截器。

2024-10-15 20:37:36 881

原创 FinbeBi的20个面试题

FinbeBi的20个面试题

2024-10-13 18:04:07 376

原创 Caused by: java.lang.ClassCastException: java.lang.String cannot be cast to java.util.List

报错：Caused by: java.lang.ClassCastException: java.lang.String cannot be cast to java.util.List

2024-09-27 11:51:17 652

原创使用dolphinscheduler在shell组件编写sqoop命令时遇到的错误

使用dolphinscheduler在shell组件编写sqoop命令时遇到的错误

2024-09-25 20:40:30 664

pycharm 2023.2.3版本安装包

空空如也