
Hadoop
文章平均质量分 89
SC放牛娃
这个作者很懒,什么都没留下…
展开
-
大数据面试题第二期*6
序列化就是把内存中的对象,转换成字节序列。原创 2024-06-07 19:24:55 · 444 阅读 · 1 评论 -
大数据面试题第一期*4
大数据面试题第一期(4篇)原创 2024-05-11 19:56:51 · 670 阅读 · 1 评论 -
数据仓库设计
数据仓库sql开发,hiveSQL原创 2024-04-29 21:04:54 · 931 阅读 · 0 评论 -
DataX数据采集流程(项目)
dataX数据采集原创 2024-04-26 17:52:12 · 970 阅读 · 3 评论 -
大数据项目介绍
大数据实战项目原创 2024-04-25 21:47:11 · 1014 阅读 · 1 评论 -
Hive进阶
ELT是将etl的开发流程进行了调整,使用采集工具采集数据,将数据直接写入hdfs,清洗转化过程可以使用hiveSQL在数仓中执行。资源全部给一个计算任务使用,但是当计算任务中的某个map或reduce计算完成后,可以将自身资源释放掉给其他计算任务使用。2-split切割后的数据传递给对应的map进行处理,会对数据转为kv (张三,1) (张三,1),(李四,1)随着分析需求的改变,数仓中的数据也在不断变化,随着时间推移,统计的字段计算数据也在发生变化。reduce的个数默认是一个;原创 2024-04-15 18:13:48 · 1214 阅读 · 1 评论 -
分布式文件存储系统
分布式文件存储系统原创 2024-04-14 19:27:50 · 1020 阅读 · 1 评论 -
Hive数据库的分区与分桶
多表关联,为了提升多表关联的查询效率,可以将关联的表数据按照相同的关联字段,进行分桶,保持分桶个数一致,或是倍数关系,可以将系统数据放在同一个余数文件中,提升了关联效率。) -- clustered by 指定按照哪个字段的数据进行数据的拆分 into 2 buckets 指定拆分的数量。) -- clustered by 指定按照哪个字段的数据进行数据的拆分 into 2 buckets 指定拆分的数量。大数据开发数据量较大,在进行数据查询计算时,需要对数据进行拆分,提升的查询速度。原创 2024-04-10 20:29:50 · 930 阅读 · 1 评论 -
Hadoop概述,及虚拟机集群搭建详解
Hadoop概述了解,虚拟机集群搭建过程原创 2024-04-01 12:08:44 · 872 阅读 · 0 评论