王哪跑nn-优快云博客

Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录，每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区，这样的查询效率会提高很多。将一张大表按照某个字段进行划分划分到多个文件夹中每个文件夹内部存储一部分表内容这样的表结构就被称之为分区表分区的好处:1. 方便数据管理2. 加快查询效率不再执行过滤操作。

2024-04-22 09:30:00 2709

原创 Java - 键盘录入Scanner类

Scanner类是一个用于扫描输入文本的新的实用程序。Scanner类是引用数据类型的一种，我们可以使用该类来完成用户键盘录入，获取到录入的数据。

2024-04-13 20:58:27 10741 2

现实生活中，我们常会看到这样的一种集合：IP地址与主机名，身份证号与个人，系统用户名与系统用户对象等，这种一一对应的关系，就叫做映射。Java提供了专门的集合类用来存放这种对象关系的对象，即接口。我们通过查看Map接口描述，发现Map接口下的集合与Collection接口下的集合，它们存储数据的形式不同，如下图。Collection中的集合，元素是孤立存在的（理解为单身），向集合中存储元素采用一个个元素的方式存储。Map中的集合，元素是成对存在的(理解为夫妻)。

2024-04-13 20:45:40 1021

原创 Hive - Json 解析

本文主要讲解了hive中json解析的两个函数

2024-04-09 14:00:00 838

原创 SQL语法之数据库多表查询

本文主要讲解了多表连接查询的各种情况

2024-04-09 09:00:00 1737

原创 Linux 之定时任务调度器-crond（crontab)服务

本文主要讲解linux定时服务器-crond服务的基本概念

2024-04-08 14:30:00 1898

原创数仓开发之Flume《一》：Flume的概述及安装

主要介绍Flume的架构及安装

2024-04-08 09:00:00 1543

原创大数据 - Hadoop系列《五》- HDFS文件块大小及小文件问题

本文主要讲述了HDFS文件块大小及小文件问题

2024-03-31 16:58:31 3235

原创大数据 - Spark系列《十五》- spark架构

本文主要讲解了spark的架构以及spark job调度全流程

2024-03-31 15:51:00 1434

原创实时数仓项目《二》-利用chatgpt prompt完成基础维表的创建

实时项目开发场景下chatgpt prompt的分享

2024-03-26 14:30:00 1505

原创 Hbase解决ERROR: KeeperErrorCode = ConnectionLoss for /hbase/master报错

记录碰到的hbase错误

2024-03-26 09:00:00 1166

原创 kafka系统的CAP保证

本文主要讲解了分布式系统的cap特性，以及如何保证kafka的一致性

2024-03-25 14:30:00 1131

原创 IDEA常用快捷键

本文主要讲解了idea的常用快捷键

2024-03-25 09:00:00 538

原创大数据 - Spark系列《十四》- spark集群部署模式

本文详细讲解了spark集群的三种部署模式

2024-03-17 21:00:01 1167

原创实时数仓项目《一》-实时数仓架构

本文主要基于实时数仓的常见需求阐述了数仓的架构

2024-03-17 18:05:09 1271

原创大数据 - HBase《一》- Hbase基本概念

主要讲解了一下Hbase的基本概念、数据模型和架构模型

2024-03-13 18:05:56 1643

原创大数据 - Spark系列《十三》- spark调度流程(运行过程)

本文细致讲解了一下spark调度流程和job执行的关键步骤

2024-03-11 21:39:51 1433

原创大数据 - Spark系列《十二》- 名词术语理解

本文主要讲解spark一下常用术语及常问面试题总结

2024-03-11 09:00:00 1061

原创 Intellij IDEA运行报Command line is too long的解决办法

找到项目下的.idea/workspace.xml。运行任何程序都运行不了。

2024-02-26 09:30:00 444

原创大数据 - Spark系列《十一》- Spark累加器详解

累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后，传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将acc结果数据返回//计算的结果为0sc.stop()解决方案:应该将每个executor执行的结果数据返回到Driver端进行聚合操作 , 返回最终结果数据。

2024-02-23 20:05:17 1628 2

原创大数据 - Spark系列《十》- rdd缓存详解

在这篇关于RDD缓存的博客中，我们将深入探讨Apache Spark中RDD的缓存机制。我们将讨论RDD缓存的原理、使用方法以及在Spark作业中的实际应用。通过本文，读者将了解如何使用RDD缓存提高Spark作业的性能和效率，以及避免在重复计算中浪费资源的情况。

2024-02-23 13:48:49 1251

原创探究网络工具nc（netcat）的使用方法及安装步骤

本文介绍了Netcat的基本使用方法，包括端口监听、端口扫描和文件传输等。接着讲解了在Linux系统上安装Netcat的两种方法：使用包管理工具安装和从源代码构建安装。最后，通过实时数据处理的场景，展示了Netcat在Flink程序中的使用，包括安装Netcat、启动Netcat服务器、编写Flink程序以及运行Flink程序等步骤。

2024-02-21 17:53:20 2233

原创大数据 - Spark系列《九》- 广播变量

广播变量是Spark中一种重要的分布式数据共享机制。本文首先介绍了广播变量的简介和特点，然后探讨了其使用场景，并详细讲解了创建、访问和销毁广播变量的方法。此外，还分析了不适用广播变量的问题。最后，文章深入解释了广播变量的分发和读取机制，包括创建原理和读取原理。通过本文的学习，读者将全面了解广播变量在Spark中的应用和实现机制。

2024-02-21 08:00:00 1782

原创大数据 - Spark系列《八》- 闭包引用

本文将深入探讨闭包引用的原理和应用。首先，我们将介绍闭包引用的概念及其副本的形成机制。随后，通过两个实例代码演示闭包引用在 Spark 中的具体应用场景。接下来，我们将讨论使用 Source.fromFile 和 sc.textFile 两种方法读取数据的差异和适用场景。最后，我们会总结闭包引用的注意事项，包括序列化检查和“副本”数量的影响。

2024-02-20 11:36:31 2050 5

原创解析Scala中HashMap插入数据的常见错误及修正方法

hashmap报错解决

2024-02-20 10:00:00 530

原创大数据 - Spark系列《七》- 分区器详解

本文将深入探讨Apache Spark 中的分区器。首先，我们将介绍什么是分区器以及它在Spark中的作用。然后，我们将讨论RDD之间的依赖关系，包括窄依赖和宽依赖，以帮助读者更好地理解数据的分布和计算模型。接着，我们将探讨在何种情况下需要使用分区器，并介绍内置的两种常用分区器：HashPartitioner（哈希分区器）和RangePartitioner（范围分区器）。最后，我们将深入研究如何自定义分区器，以满足特定的业务需求

2024-02-19 13:30:12 1727

大数据测试数据-movie.txt

Idea 导入Mysql8.0驱动jar包

关于CEP中无法在结尾事件中使用贪婪或勉强量词的情况该如何处理？