大数据知识点

原创已于 2024-12-06 00:24:37 修改 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#java #数据仓库 #大数据

于 2021-11-18 15:51:02 首次发布

笔记专栏收录该内容

7 篇文章

订阅专栏

1. map reduce工作机制

map ：

map task从split中读取数据处理后输出key/value ，
对键值进行Partioner（分区）后，存入到缓存区中，缓存区默认大小为100m；
当缓存区内容达到80m时，启动溢写操作，把缓存区的内容写到一个溢写文件中。
在写入溢写文件之前，会对键值进行分区排序和合并（如果设置的话）。
当该map task处理完所有数据后，需要对该map 生成的所有溢写文件进行merger（合并）操作，
生成一个文件。

reduce :

reduce task 接受到通知后，就会拉取各个map task 的文件数据，放到缓存区中。
当缓存区内容达到阈值时，同样执行溢写操作，生成溢写文件。
当把所有的map task上的文件数据读取完成后，会把生成的所有溢写文件进行merger（合并）操作，生成一个文件作为reduce task的输出数据。

2. hive

hive是一个基于hadoop的数据仓库工具，可以将结构化的数据映射成一张表，并且提供类sql功能

优点：
1.接口提供类sql查询功能简单容易上手
2.避免了去写mapreduce 减少学习成本
3. hive延迟性比较高常用于数据分析对实时性要求不高的场所
4.处理大数据比较有优势
5.支持自定义函数
缺点：
1. hql表达能力有限
2.效率比较低

3.数据仓库

数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。

特征：
面向主题、集成性、稳定性和时变性，用于支持管理决策

分为
ODS 数据准备层
DWD 数据明细层
DWS 数据汇总层
DM 数据集市层

数据库和数据仓库的区别

1.数据库是面向事务的数据仓库是面向主题的
2.数据库尽量避免冗余数据库的设计意在引入冗余
3.数据库是为了捕获数据而设计数据仓库是为了分析数据
4.数据库一般储存在线数据数据仓库一般存储历史数据

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。