- 博客(15)
- 收藏
- 关注
原创 scala03
这段代码展示了如何在Scala中使用JDBC进行数据库操作,并通过面向对象的方式封装和处理操作结果。代码中的to方法用于类型转换,允许从泛型Three对象转换为具体的子类对象。
2024-08-13 10:49:52
414
原创 HDFS-MapReduce
WordCountTest 和 StoryWordCount 展示了如何实现一个简单的单词计数器,其中 WordCountTest 是一个单行文本的单词计数器,而 StoryWordCount 是一个使用 Hadoop MapReduce 框架的分布式单词计数器。它的任务是对输入的文本行进行分词,并为每个单词输出一个键值对,键是单词本身,值是单词出现的次数。HDFS 类封装了对 Hadoop 文件系统的操作,提供了一系列的方法来执行文件和目录的验证、创建、删除、上传和下载等操作。
2024-08-01 10:00:45
526
原创 Hive数据查询
窗口定义由[<window_clause>]子句描述• 用于进一步细分结果并应用分析函数• 支持两类窗口定义• 行类型窗口• 范围类型窗口• RANK、NTILE、DENSE_RANK、CUME_DIST、PERCENT_RANK、LEAD、LAG和ROW_NUMBER函数不支持与窗口子句一起使用。
2024-07-30 09:56:52
815
原创 Hive基础
【Hive简单介绍】数据仓库:数仓设计方案,本身并不存储数据(元数据,数据)元数据:RDB(Derby,Mysql)数据:Hdfs本质:为了让更多的人容易上手表象:sql本质:store : hadoop :大数据(hdfs)| ↓| hql| Complier(编译器)| stage plan(DAG√有向无环图)↓ ↓Jobs组成:mysql : 有分布式存储,无分布式计算表分区,分表,分库元数据 : mysqlDBSTBLSCOLUMNS_V2结构。
2024-07-26 11:15:32
662
原创 Yarn(分布式资源管理框架)
容量调度器是一种较为传统的调度策略,它提供了一种分层队列的资源管理方式,允许管理员预定义队列结构并为每个队列分配资源容量。Capacity Scheduler 支持队列间的资源隔离,并且可以为不同的队列设置不同的调度策略,如 FIFO、Fair 或者其他自定义策略。这种策略的优点在于能够保证长期运行的任务获得稳定的资源供应,但缺点是在资源紧张时可能会限制新任务的执行。
2024-07-25 09:11:28
1019
原创 MapReduce
MapReduce 框架使用 InputFormat 模块做 Map 前的预处理(进行逻辑切分),比如验证输入的格式是否符合输入定义,然后将输入的文件切分为逻辑上的多个 InputSplit,InputSplit 是 MapReduce 对文件进行处理和运算的实际单位(逻辑概念),每个InputSplit没有对文件进行实际切割,只是记录了要处理的数据的位置和长度。Combiner执行的是类似于Reducer的操作,但是它是在Map任务的本地输出上执行的,而不是在整个数据集上。
2024-07-24 09:46:47
652
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅