大数据_各章概述

最新推荐文章于 2021-12-07 11:18:46 发布

原创最新推荐文章于 2021-12-07 11:18:46 发布 · 325 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

大数据专栏收录该内容

39 篇文章

订阅专栏

本文详细介绍了Hadoop的核心技术，包括大数据的概念、分布式文件系统HDFS、计算模型MapReduce等，并探讨了Hadoop在实际场景中的应用案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、各章概述（Hadoop部分）
    (一)、Hadoop的起源与背景知识

        1、什么是大数据？两个例子、大数据的核心问题是什么？
            举例：（1）商品推荐：问题1：大量的订单如何存储？       问题2：大量的订单如何计算？
                 （2）天气预报：问题1：大量的天气数据如何存储？    问题2：大量的天气数据如何计算？

            大数据的核心问题：（1）数据的存储：分布式文件系统（分布式存储）
                           （2）数据的计算：分布式计算

        2、概念：数据仓库（Data warehouse）
            （1）我们可以把Hadoop和Spark看成是数据仓库的一种实现方式
            （2）数据仓库就是一个数据库，一般只做select
            （3）重要：掌握数据仓库搭建的过程
            （4）数据仓库又是一种OLAP的应用系统

        3、概念：OLTP和OLAP
            （1）OLTP：online transaction processing 联机事务处理
                事物(acid 原子性、隔离性、持久性、一致性)
            （2）OLAP：online analytic processing 联机分析处理 ------> 一般：不会修改（删除）数据

        4、（最重要的内容）Google的几篇论文：3篇
            （1）GFS：Google File System   -----> HDFS              ----> 解决：数据的存储  
            （2）MapReduce计算模型         -----> Hadoop MapReduce  ----> 解决：数据的计算
            （3）BigTable大表              -----> HBase是NoSQL数据库

    (二)、实验环境(见下边)

    (三)、Apache Hadoop的体系结构（重要）：实现Google的思想论文

        1、HDFS：Hadoop Distributed File System
            （*）主从结构
            （*）主节点：NameNode名称节点
            （*）从节点：DataNode数据节点
            （*）SecondaryNameNode：第二名称节点

        2、Yarn:是一个容器，运行MapReduce程序
            （*）主从结构 
            （*）主节点：ResourceManager 资源管理器
            （*）从节点：NodeManager     节点管理器

        3、HBase：需要单独安装(在Hadoop安装包里面没有HBase，所以需要单独安装)
            （*）主从结构 
            （*）主节点：HMaster
            （*）从节点：RegionServer

    (四)、Hadoop 2.X的安装与配置

        Hadoop有三种安装模式
        1、本地模式      一台Linux
        2、伪分布模式    一台Linux
        3、全分布模式    三台Linux
        4、掌握免密码登录的原理和配置

    (五)、Hadoop应用案例分析

        1、大数据背景下，企业级系统的架构的变化

        2、HBase进行日志分析

        3、了解：Hadoop在淘宝的应用

    (六)、HDFS：Hadoop的分布式文件系统，数据存储
        1、操作HDFS：（1）命令行  （2）Java API  （3）网页：Web Console
        2、原理：数据上传的过程
                数据下载的过程
        3、HDFS的底层实现：RPC和Java动态代理
                           RPC：remote procedure call(远程过程调用)
        4、高级特性
            （*）回收站
            （*）快照snapshot：是一种备份
            （*）配额quota：（1）名称配额  （2）空间配额
            （*）安全模式：safemode
            （*）权限              

    (七)、MapReduce：是一个计算模型，可以用Java来实现
        1、Demo：经典WordCount
        2、重点：MapReduce处理数据的过程
        3、原理：Yarn执行MapReduce的过程
        4、MapReduce的高级特性
            （*）序列化
            （*）排序
            （*）分区
            （*）合并
        5、MapReduce的核心：Shuffle（洗牌）
        6、编程案例：
            （*）排序：order by
            （*）去重：distinct
            （*）多表查询
            （*）倒排索引

    补充：MySQL数据库

    (八)、Hive：蜂巢  数据分析的引擎：翻译器   SQL语句 ------翻译成---------> MapReduce 程序
    (九)、Pig： 猪    数据分析的引擎：翻译器   PigLatin语言 ---翻译成---> MapReduce 程序

    (十)、HBase: NoSQL数据库
        1、是基于Hadoop之上的NoSQL
        2、体系结构：HMaster、RegionServer
        3、搭建：本地模式、伪分布模式、全分布模式
        4、操作：命令行(sql语句)、Java API、Web Console
        5、过滤器：实现复杂的查询
        6、HBase上的MapReduce

    (十一)、Sqoop：数据采集引擎，采集关系型数据库中的数据

    (十二)、Flume：数据采集引擎，采集日志

    (十三)、HUE：基于Web的管理工具

    (十四)、ZooKeeper： 动物园管理者，相当于是一个”数据库“，实现HA（High Avaiblity高可用性）

    (十五)、Hadoop的集群和HA

        1、HDFS的联盟（Federation）
        2、Hadoop的HA（High Avaiblity高可用性）

    (十六)、Redis：基于内存的NoSQL数据库，提高性能

    (十七)、Storm：处理流式数据（实时计算）
                  集成Storm和Redis

实验环境

这里写图片描述

数据仓库的搭建过程

这里写图片描述

分布式文件系统(分布式存储):NameNode和SecondaryNameNode 这两者之间没有关系。

这里写图片描述

机架感知

这里写图片描述

搭建Hadoop环境需要三台机器：nameNode和SecondaryNameNode在一台机器上；数据节点的话，两个硬盘在一台机器上，另外一块硬盘在一台机器上。因此总共需要三台机器。

对倒排索引的理解：按照abcd排序

这里写图片描述