
大数据
文章平均质量分 86
互联网小白兔
专业CRUD 选手
展开
-
数据仓库、Apache hive 入门
Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统 一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨 大好处。3、表和文件的映射关系创建成功,用户写完sql之后,hive需要针对sql进行语法校验,并且根据记录的元数据信息解读sql背后的含义,制定执行计划。的问题,是大数据技术中的基石。原创 2023-07-14 10:38:31 · 107 阅读 · 1 评论 -
数仓、数据湖、湖仓一体、数据网格概论
随着数据规模扩大,对数据承载能力(容量、算力)的要求也不断增大,数仓架构的扩展能力面临考验,规模的扩展会面临大量资源的投入,但硬件资源缺乏弹性,会导致高峰时资源不足,低谷时资源闲置浪费问题。数据湖通常更大,存储成本也更为廉价结合先进的数据科学与机器学习技术,能提供预测分析、推荐模型等能力。将数据湖和数据仓库技术合二为一 ,在用于数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。原创 2023-07-11 10:58:07 · 699 阅读 · 0 评论