蓝胖子的宝贝-优快云博客

原创 Hive内置UDF函数详解

Hive内置的UDF函数包括数学函数、字符串函数、日期函数等，这些函数可以直接在Hive中使用，无需额外安装或配置。Hive内置了一些常用的日期函数，如year、month、day、hour、minute、second等。Hive内置了一些常用的字符串函数，如concat、substring、length、trim等。Hive内置的UDF函数可以方便地扩展Hive的功能，满足不同的业务需求。Hive内置了一些常用的数学函数，如abs、ceil、floor、round等。

2023-05-10 19:56:02 522

原创大数据之Hive详细介绍

Hive的查询语言HiveQL类似于SQL语言，支持SELECT、FROM、WHERE、GROUP BY、ORDER BY等关键字，同时也支持JOIN、UNION、SUBQUERY等高级语法。Hive的优点包括易于学习和使用、处理大规模数据、可扩展性强、支持多种数据源等，缺点包括查询速度较慢、不支持实时查询和事务等。Hive的数据模型是基于表的，每个表都有一个定义表结构的元数据，包括表名、列名、数据类型、分区等信息。Hive内置了许多常用的函数，如数学函数、字符串函数、日期函数等。

2023-05-10 19:51:17 524

原创 Spark之RDD详细介绍

RDD是Spark中最基本的数据结构，具有分布式、不可变性、弹性容错性和惰性计算等特点，支持转换操作和行动操作，还支持缓存机制，是Spark进行分布式计算的核心。

2023-05-08 20:11:11 798

原创 DolphinScheduler的详细介绍以及使用

DolphinScheduler支持多种任务类型，包括Hadoop、Spark、Flink、Hive、Python、Shell等，同时还提供了丰富的调度策略和监控功能，可以满足各种复杂的调度需求。多种任务类型：DolphinScheduler支持多种任务类型，包括Hadoop、Spark、Flink、Hive、Python、Shell等，可以满足各种数据处理需求。丰富的调度策略：DolphinScheduler提供了多种调度策略，包括定时调度、依赖调度、手动调度等，可以满足各种复杂的调度需求。

2023-05-05 16:24:47 1456

原创大数据面试中关于hadoop常见的问题及答案

hadoop面试题

2023-04-28 16:27:44 526

原创大数据面试之Linux命令详解

Linux常见命令

2023-04-28 16:24:41 112

原创大数据之azkaban介绍及安装部署

用户可以通过Web界面来定义工作流，包括任务之间的依赖关系、任务的执行顺序和执行条件等。执行服务器会根据工作流的定义，自动调度任务的执行，并将执行结果返回给用户。SLA监控可以帮助用户监控任务的执行时间，如果任务执行时间超过了预设的时间，系统会自动发送警报。总的来说，Azkaban是一个非常实用的工作流调度系统，它可以帮助用户简化Hadoop作业的管理和调度，提高工作效率。在数据库中创建一个新的数据库，并创建相应的表。Azkaban执行器是用来执行任务的，需要在每个执行任务的机器上启动。

2023-04-27 20:03:22 652

原创大数据之Kafka介绍及使用

Kafka最初是由LinkedIn开发的，用于处理其海量的实时数据流，现在已经成为了许多公司的首选解决方案。

2023-04-27 16:51:12 413

原创大数据之数据采集框架Flume

Flume是一个分布式的、可靠的、高可用的大数据采集系统，它可以将数据从不同的数据源（如Web服务器、日志文件、消息队列等）采集到Hadoop等大数据处理平台中进行处理和分析。

2023-04-26 20:02:37 1170

原创 Hadoop之YARN详解

YARN（Yet Another Resource Negotiator）是Hadoop的一个重要组成部分，它是Hadoop 2.0中的一个新的资源管理器，用于管理Hadoop集群中的资源和任务。YARN是Hadoop的一个重要组成部分，它可以支持多种计算框架，提供更灵活的资源管理和任务调度机制，更好地利用集群中的资源，使得Hadoop可以更好地满足大规模数据处理的需求。更好的资源利用率：YARN可以更好地利用集群中的资源，避免了资源浪费和资源争用的问题。

2023-04-25 20:05:41 672

原创 Hadoop之MapReduce详解

每个节点都会执行相同的Reduce函数，将相同键值的数据进行合并和计算。Map阶段：将每个小块的数据分配给不同的计算机节点进行处理。配置MapReduce作业：配置MapReduce作业的参数，包括输入文件、输出文件、Map函数和Reduce函数等。Shuffle阶段：将Map函数的输出结果按照键值进行排序，并将相同键值的数据合并在一起。编写Reduce函数：编写Reduce函数，将相同键值的数据进行合并和计算。输入数据的切分：将输入数据切分成小块，每个小块的大小通常为64MB。

2023-04-25 19:54:23 547 1

原创大数据之HDFS详解

HDFS是Hadoop生态系统中的一个重要组件，它是为了解决大规模数据存储和处理问题而设计的。HDFS的架构由NameNode和DataNode组成，它提供了与标准文件系统类似的操作，并且可以与Hadoop MapReduce和其他Hadoop生态系统中的工具一起使用。HDFS（Hadoop Distributed File System）是Hadoop生态系统中的一个分布式文件系统，它是为了解决大规模数据存储和处理问题而设计的。HDFS的使用可以分为两个部分：文件系统操作和数据处理。

2023-04-25 19:44:48 551 1

原创大数据之Hadoop简介

Hadoop最初是由Apache软件基金会开发的，它的核心是Hadoop Distributed File System（HDFS）和MapReduce计算模型。总之，Hadoop是一个强大的分布式计算框架，它可以处理大规模数据集并提供高可靠性、高可扩展性和高效性能。Hadoop的使用需要一定的技术水平，但是它可以帮助企业处理大数据，提高数据分析的效率和准确性。运行MapReduce程序：将编写好的MapReduce程序提交到YARN中运行，YARN会为程序分配资源并在集群中运行程序。

2023-04-25 19:43:00 976 1

原创 Clickhouse安装部署及简单使用

clickhouse安装部署

2023-04-25 19:34:57 1069 1

qq_42588609的博客