- 博客(9)
- 收藏
- 关注
原创 基于Hadoop的数据仓库之Hive
Hive的基本概念1.1、Hive 简介 什么是 Hive,Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方...
2019-07-20 11:56:03
282
原创 Hbase的shell操作
Hbase的shell操作1.Hbase中的DDL操作1)建表语法1. create "namespace:表名","family column","family column"语法2. {表的一些属性 必须包含列族}create "namespace:表名",{NAME=> “”,VERSIONS => 3,TTL =>},{NAME =>...
2019-07-15 20:52:49
160
原创 HBase数据库原理介绍
1、HBase 数据库1.1、产生背景 自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。Hadoop 的限...
2019-07-15 19:54:13
414
原创 Java虚拟机——JVM的垃圾回收
1. JVM的垃圾回收1.1. 垃圾回收算法标记清除算法 最基础的收集算法是“标记-清除”(Mark-Sweep)算法,此方法分为两个阶段:标记、清除。 标记要清除的对象,统一清除; 不足有两个: 一个是效率问题,标记和清除两个过程的效率都不高; 另一个是空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致以后在程序运行过程中需要分配较大对象时,无法找到...
2019-07-13 15:44:36
154
原创 Java虚拟机——JVM
1.What is Jvm? 我们大家知道jvm,全程:Java Virtual Machine。我们知道java具有跨平台,一次编译到处执行。每一种操作系统,执行相关程序的时候,因为操作环境不同,会造成代码不能跨平台执行。而java可以做到,原因在哪里?就在于不同操作系统有不同版本jvm。 语言的执行过程:源代码(.java)----->编译(字节码 ...
2019-07-13 15:05:11
102
原创 MapReduce之Shuffle执行原理
MapReduce 的 Shuffle 机制1.1、概述1、MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle2、Shuffle: 数据混洗 ——(核心机制:数据分区,排序,分组,局部聚合,缓存,拉取,再合并 排序)3、具体来说:就是将 MapTask 输出的处理结果数...
2019-07-12 19:59:41
233
原创 Hadoop-分布式计算框架MapReduce
虽然现在有流行的言论称MapReduce这种运行很慢的分布式计算编程框架将要被各种内存计算框架取代。但是MapRedcue也会吸收很多流行的内存计算的各种优点,我相信,将来,MapReduce绝对不会沦落到要淘汰的地步。甚至会后来居上。在此,本人总结一篇关于MapReduce编程的中的程序运行原理,便于大家查阅学习。1、MapReduce之WordCount热门案例...
2019-07-03 20:35:54
140
原创 Hadoop之hdfs的文件上传原理与文件下载原理
#Hadoop之hdfs的文件上传,文件下载与元数据合并原理 我们知道Hdfs有两大核心分别是文件上传与文件下载---------------------------------------------------------------------------------------------------------------------------------------...
2019-07-03 20:13:17
1336
原创 Hadoop之hdfs详解
@TOC@(Scala入门—)Hadoop之hdfs详解海量数据存储的 就是一个文件系统 分布式文件系统hdfs的设计思:假设有一个超级大的文件10T服务器多台 ,每一个3T超级大的文件如何存储呢?存储方案:将超级大的文件 切分 每一个小文件进行存储在不同的节点上分而治之的思想 (block) ,对文件进行分块存储这个时候需要一个切分标准:2.5T 合理吗?切分...
2019-07-02 16:54:46
382
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人