Git122-优快云博客

原创 scala03

这段代码展示了如何在Scala中使用JDBC进行数据库操作，并通过面向对象的方式封装和处理操作结果。代码中的to方法用于类型转换，允许从泛型Three对象转换为具体的子类对象。

2024-08-13 10:49:52 414

原创 Scala02

比 switch case 更加强大的模式匹配。

2024-08-08 09:24:59 1007

WordCountTest 和 StoryWordCount 展示了如何实现一个简单的单词计数器，其中 WordCountTest 是一个单行文本的单词计数器，而 StoryWordCount 是一个使用 Hadoop MapReduce 框架的分布式单词计数器。它的任务是对输入的文本行进行分词，并为每个单词输出一个键值对，键是单词本身，值是单词出现的次数。HDFS 类封装了对 Hadoop 文件系统的操作，提供了一系列的方法来执行文件和目录的验证、创建、删除、上传和下载等操作。

2024-08-01 10:00:45 526

原创 Hive数据查询

窗口定义由[<window_clause>]子句描述• 用于进一步细分结果并应用分析函数• 支持两类窗口定义• 行类型窗口• 范围类型窗口• RANK、NTILE、DENSE_RANK、CUME_DIST、PERCENT_RANK、LEAD、LAG和ROW_NUMBER函数不支持与窗口子句一起使用。

2024-07-30 09:56:52 815

原创 Hive基础

【Hive简单介绍】数据仓库：数仓设计方案，本身并不存储数据（元数据，数据）元数据：RDB(Derby,Mysql)数据：Hdfs本质：为了让更多的人容易上手表象：sql本质：store : hadoop ：大数据(hdfs)| ↓| hql| Complier（编译器）| stage plan(DAG√有向无环图)↓ ↓Jobs组成：mysql : 有分布式存储，无分布式计算表分区，分表，分库元数据 : mysqlDBSTBLSCOLUMNS_V2结构。

2024-07-26 11:15:32 662

原创 Yarn（分布式资源管理框架）

容量调度器是一种较为传统的调度策略，它提供了一种分层队列的资源管理方式，允许管理员预定义队列结构并为每个队列分配资源容量。Capacity Scheduler 支持队列间的资源隔离，并且可以为不同的队列设置不同的调度策略，如 FIFO、Fair 或者其他自定义策略。这种策略的优点在于能够保证长期运行的任务获得稳定的资源供应，但缺点是在资源紧张时可能会限制新任务的执行。

2024-07-25 09:11:28 1019

原创 MapReduce

MapReduce 框架使用 InputFormat 模块做 Map 前的预处理（进行逻辑切分），比如验证输入的格式是否符合输入定义，然后将输入的文件切分为逻辑上的多个 InputSplit，InputSplit 是 MapReduce 对文件进行处理和运算的实际单位（逻辑概念），每个InputSplit没有对文件进行实际切割，只是记录了要处理的数据的位置和长度。Combiner执行的是类似于Reducer的操作，但是它是在Map任务的本地输出上执行的，而不是在整个数据集上。

2024-07-24 09:46:47 652