
Hadoop
weixin_42361860
这个作者很懒,什么都没留下…
展开
-
Hadoop之hdfs详解
@TOC@(Scala入门—)Hadoop之hdfs详解海量数据存储的 就是一个文件系统 分布式文件系统hdfs的设计思:假设有一个超级大的文件10T服务器多台 ,每一个3T超级大的文件如何存储呢?存储方案:将超级大的文件 切分 每一个小文件进行存储在不同的节点上分而治之的思想 (block) ,对文件进行分块存储这个时候需要一个切分标准:2.5T 合理吗?切分...原创 2019-07-02 16:54:46 · 386 阅读 · 0 评论 -
Hadoop之hdfs的文件上传原理与文件下载原理
#Hadoop之hdfs的文件上传,文件下载与元数据合并原理 我们知道Hdfs有两大核心分别是文件上传与文件下载---------------------------------------------------------------------------------------------------------------------------------------...原创 2019-07-03 20:13:17 · 1342 阅读 · 0 评论 -
Hadoop-分布式计算框架MapReduce
虽然现在有流行的言论称MapReduce这种运行很慢的分布式计算编程框架将要被各种内存计算框架取代。但是MapRedcue也会吸收很多流行的内存计算的各种优点,我相信,将来,MapReduce绝对不会沦落到要淘汰的地步。甚至会后来居上。在此,本人总结一篇关于MapReduce编程的中的程序运行原理,便于大家查阅学习。1、MapReduce之WordCount热门案例...原创 2019-07-03 20:35:54 · 141 阅读 · 0 评论 -
MapReduce之Shuffle执行原理
MapReduce 的 Shuffle 机制1.1、概述1、MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle2、Shuffle: 数据混洗 ——(核心机制:数据分区,排序,分组,局部聚合,缓存,拉取,再合并 排序)3、具体来说:就是将 MapTask 输出的处理结果数...原创 2019-07-12 19:59:41 · 244 阅读 · 0 评论 -
HBase数据库原理介绍
1、HBase 数据库1.1、产生背景 自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。Hadoop 的限...原创 2019-07-15 19:54:13 · 417 阅读 · 0 评论 -
Hbase的shell操作
Hbase的shell操作1.Hbase中的DDL操作1)建表语法1. create "namespace:表名","family column","family column"语法2. {表的一些属性 必须包含列族}create "namespace:表名",{NAME=> “”,VERSIONS => 3,TTL =>},{NAME =>...原创 2019-07-15 20:52:49 · 166 阅读 · 0 评论 -
基于Hadoop的数据仓库之Hive
Hive的基本概念1.1、Hive 简介 什么是 Hive,Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方...原创 2019-07-20 11:56:03 · 287 阅读 · 0 评论