- 博客(124)
- 收藏
- 关注
原创 安装epel-release包报错:could not retrieve mirrorlist http://mirrorlist.centos.org/release=7&arch=x86_6
安装rpm包epel-release报错解决
2024-11-01 16:13:38
419
原创 华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案(1)
华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案(1)离线处理方案
2024-08-14 11:26:26
736
原创 华为hcip-big data 学习笔记《一》大数据应用开发总指导(2)
华为hcip-big data 学习笔记《一》大数据应用开发总指导 - 2. 大数据场景化解决方案
2024-08-12 22:24:07
910
1
原创 Linux - nohup 后台启动命令
nohup主要作用就是可以在后台运行,并可以选择将日志输出到指定文件。如启动jar包,若使用的方式启动程序当窗口关闭的时候程序也停止了,而且日志会直接输出到控制台非常不直观,nohup启动就可以解决这两个问题。
2024-04-30 16:45:00
1958
1
原创 Hive - 分区表
Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录,每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区,这样的查询效率会提高很多。将一张大表按照某个字段进行划分 划分到多个文件夹中每个文件夹内部存储一部分表内容这样的表结构就被称之为分区表分区的好处:1. 方便数据管理2. 加快查询效率 不再执行过滤操作。
2024-04-22 09:30:00
2709
原创 Java - 键盘录入Scanner类
Scanner类是一个用于扫描输入文本的新的实用程序。Scanner类是引用数据类型的一种,我们可以使用该类来完成用户键盘录入,获取到录入的数据。
2024-04-13 20:58:27
10741
2
原创 Java-Map集合
现实生活中,我们常会看到这样的一种集合:IP地址与主机名,身份证号与个人,系统用户名与系统用户对象等,这种一一对应的关系,就叫做映射。Java提供了专门的集合类用来存放这种对象关系的对象,即接口。我们通过查看Map接口描述,发现Map接口下的集合与Collection接口下的集合,它们存储数据的形式不同,如下图。Collection中的集合,元素是孤立存在的(理解为单身),向集合中存储元素采用一个个元素的方式存储。Map中的集合,元素是成对存在的(理解为夫妻)。
2024-04-13 20:45:40
1021
原创 Hbase解决ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master报错
记录碰到的hbase错误
2024-03-26 09:00:00
1166
原创 Intellij IDEA运行报Command line is too long的解决办法
找到项目下的.idea/workspace.xml。运行任何程序都运行不了。
2024-02-26 09:30:00
444
原创 大数据 - Spark系列《十一》- Spark累加器详解
累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将acc结果数据返回//计算的结果为0sc.stop()解决方案:应该将每个executor执行的结果数据返回到Driver端进行聚合操作 , 返回最终结果数据。
2024-02-23 20:05:17
1628
2
原创 大数据 - Spark系列《十》- rdd缓存详解
在这篇关于RDD缓存的博客中,我们将深入探讨Apache Spark中RDD的缓存机制。我们将讨论RDD缓存的原理、使用方法以及在Spark作业中的实际应用。通过本文,读者将了解如何使用RDD缓存提高Spark作业的性能和效率,以及避免在重复计算中浪费资源的情况。
2024-02-23 13:48:49
1251
原创 探究网络工具nc(netcat)的使用方法及安装步骤
本文介绍了Netcat的基本使用方法,包括端口监听、端口扫描和文件传输等。接着讲解了在Linux系统上安装Netcat的两种方法:使用包管理工具安装和从源代码构建安装。最后,通过实时数据处理的场景,展示了Netcat在Flink程序中的使用,包括安装Netcat、启动Netcat服务器、编写Flink程序以及运行Flink程序等步骤。
2024-02-21 17:53:20
2233
原创 大数据 - Spark系列《九》- 广播变量
广播变量是Spark中一种重要的分布式数据共享机制。本文首先介绍了广播变量的简介和特点,然后探讨了其使用场景,并详细讲解了创建、访问和销毁广播变量的方法。此外,还分析了不适用广播变量的问题。最后,文章深入解释了广播变量的分发和读取机制,包括创建原理和读取原理。通过本文的学习,读者将全面了解广播变量在Spark中的应用和实现机制。
2024-02-21 08:00:00
1782
原创 大数据 - Spark系列《八》- 闭包引用
本文将深入探讨闭包引用的原理和应用。首先,我们将介绍闭包引用的概念及其副本的形成机制。随后,通过两个实例代码演示闭包引用在 Spark 中的具体应用场景。接下来,我们将讨论使用 Source.fromFile 和 sc.textFile 两种方法读取数据的差异和适用场景。最后,我们会总结闭包引用的注意事项,包括序列化检查和“副本”数量的影响。
2024-02-20 11:36:31
2050
5
原创 大数据 - Spark系列《七》- 分区器详解
本文将深入探讨Apache Spark 中的分区器。首先,我们将介绍什么是分区器以及它在Spark中的作用。然后,我们将讨论RDD之间的依赖关系,包括窄依赖和宽依赖,以帮助读者更好地理解数据的分布和计算模型。接着,我们将探讨在何种情况下需要使用分区器,并介绍内置的两种常用分区器:HashPartitioner(哈希分区器)和RangePartitioner(范围分区器)。最后,我们将深入研究如何自定义分区器,以满足特定的业务需求
2024-02-19 13:30:12
1727
关于CEP中无法在结尾事件中使用贪婪或勉强量词的情况该如何处理?
2024-03-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人