
Hadoop
文章平均质量分 59
湫湫玺云台
个人学习笔记
展开
-
hive--去重、ROW_NUMBER() OVER()函数
注意:ROW_Number() over (partition by id order by time DESC) 给每个id加一列按时间倒叙的rank值,取rank=1。在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where 、group by、 order by 的执行。row_number() over(partition by 分组列 order by 排序列 desc)3.row_number() over()窗口函数。原创 2022-11-17 09:22:59 · 1702 阅读 · 0 评论 -
hive--基础语句
PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] ---表的分区信息。[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] ---表的桶信息。[(col_name data_type [COMMENT col_comment], ...)] ----指定表的名称和表的具体列信息。原创 2022-11-16 15:33:57 · 49 阅读 · 0 评论 -
hive-- 数据类型
本章介绍Hive不同的数据类型,用于创建表。原创 2022-11-16 10:24:17 · 80 阅读 · 0 评论 -
Hive--介绍
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。原创 2022-11-16 10:02:52 · 55 阅读 · 0 评论 -
Hadoop介绍
Hadoop是一个用Java编写的Apache开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。Hadoop旨在从单个服务器扩展到数千个机器,每个都提供本地计算和存储。Hadoop是一个开源框架来存储和处理大型数据在分布式环境中。它包含两个模块,一个是MapReduce,另外一个是Hadoop分布式文件系统(HDFS)。它是一种并行编程模型在大型集群普通硬件可用于处理大型结构化,半结构化和非结构化数据。原创 2022-11-16 09:43:10 · 43 阅读 · 0 评论 -
Mapreduce案例--WorldCount
需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数1.创建一个新的文件 2.向其中放入以下内容并保存 3.上传到HDFS Step2.Mapper原创 2022-11-03 13:46:56 · 73 阅读 · 0 评论 -
Mapreduce基础
mapreduce共有八个步骤,map阶段2个步骤,shuffle阶段4个步骤,reduce阶段分为2个步骤。用OutputFormat:TextOutputFormat类将结果存入一个普通文本文件。Reduce:1.自定义Reduce逻辑,将K2和V2转为K3和V3。将重复值组合,得出新的V2为(表示出现3次)Map:1.自定义Map逻辑,将K1和V1转为K2和V2。2.继承Mapper,重写map方法。将V2的转为3的形式。得出的V2全固定为1,忽视重复值。原创 2022-10-31 22:22:22 · 49 阅读 · 0 评论