大数据技术原理与应用期末复习

一、选择题部分:

1、Hadoop的起源:
Hadoop最初由Doug Cutting和Mike Cafarella开发,受Google GFS和MapReduce论文的启发。源自Apache Lucene项目——一个开源的网络搜索引擎,它旨在提供一个可靠、可扩展的分布式计算平台。(是Apache软件基金会旗下的一个开源分布式计算平台,)
2、hadoop家族常见组件hdfs、mapreduce、yarn、hbase、zookeeper等的来源和特性:

在这里插入图片描述

HDFS(Hadoop Distributed File System):分布式文件系统,提供高容错和高吞吐量的数据访问。(处理超大数据、流式处理、可以运行在廉价商用服务器)
HBase:构建在HDFS之上的分布式、可扩展的大数据存储系统。(具有强大的非结构化数据存储能力,基于列的存储,具有良好的横向扩展能力,而传统关系型数据库是基于行的存储,)针对谷歌bigtable的开源实现。列式数据库适合批量数据处理和即席查询。它的优点是可以降低I/O开销,支持大量并发用户查询、数据处理速度比传统方法快一百倍,因为只用处理可以回答这些查询的列;具有较高的数据压缩比
MapReduce:用于数据处理的编程模型和软件框架。(它将复杂的运行于大规模集群上的并行计算过程高度的抽象为两个函数,Map和Reduce,把输入的数据集切分为若干独立的数据,会分发给一个主节点管理下的各个分节点来共同并行完成。最后通过整合各个节点的中间结果,得到最终结果)针对谷歌mapreduce的开源实现
ZooKeeper: ZooKeeper 是一种分布式的、开源的协调服务,用于管理和协调 Hadoop 集群中的服务。针对谷歌chubby的开源实现
YARN(Yet Another Resource Negotiator):资源调度管理框架。(YARN 的出现是为了解决 Hadoop 1.0 中 JobTracker 的局限性,JobTracker 既负责资源管理又负责任务调度,这带来了性能瓶颈和单点故障的问题。YARN 将资源管理和作业调度的功能分离,引入了ResourceManager 和 ApplicationMaster 两个新的组件:1、ResourceManager 负责整个集群的资源管理和分配。2、ApplicationMaster 负责单个应用程序的资源negotiation和任务调度。
Hive: Hive 是一个数据仓库工具,它提供了一种类似 SQL 的查询语言 (HiveQL)对hadoop,使得能够轻松地进行数据汇总、查询和分析
Pig: Pig 是一种高级数据流语言和执行框架,用于并行计算。它提供了一种类似于 SQL 的语言 (Pig Latin),用于表达复杂的数据转换
Mahout: Mahout 是一个可扩展的机器学习和数据挖掘库,提供了各种算法,如聚类、分类和推荐系统。
Flume: Flume 是一个分布式的、高可靠的、高可用的服务,用于有效地采集、聚合和传输大量日志数据。(可以对数据进行简单处理并写到各种数据接收方)
Sqoop: Sqoop 是一个工具,用于在 Hadoop 和结构化(关系型)数据存储系统之间高效地传输批量数据。(主要通过Java数据库连接和关系数据库进行交互)
Ambari: Ambari 是一个 Web 界面,用于配置、管理和监控 Hadoop 集群。它简化了 Hadoop 的部署和操作。
3、HDFS的读写任务:
  • 读取:客户端向NameNode请求文件位置信息,然后直接从DataNode读取数据块。
  • 写入:客户端先写入临时文件,NameNode协调DataNode完成数据复制,最后提交文件。
4、HBase的消息通信机制:
  1. 客户端与HBase的通信
    • 客户端通过HBase客户端API与HBase集群进行通信。
    • 客户端首先通过Zookeeper获取HMaster和RegionServer的位置信息。
    • 客户端直接与RegionServer通信,进行数据读写操作。
  2. HMaster与RegionServer的通信
大数据技术应用题库 单选题: 1从大量数据中提取知识的过程通常称为(A)。 a。 。 数据挖掘 b。 。 人工智能 c. . 数据清洗 d。 。 数据仓库 2下列论据中,能够支撑"大数据无所不能"的观点的是(A)。 A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露信息安全担忧 3数据仓库的最终目的是(D)。 a。 。 收集业务需求 b。 . 建立数据仓库逻辑模型 c. . 开发数据仓库的应用分析 d. 。 为用户和业务部门提供决策支持 4大数据处理技术和传统的数据挖掘技术最大的区别是(A). a。 。 处理速度快(秒级定律) b. . 算法种类更多 c. . 精度更高 d. 。 更加智能化 5大数据的起源是(C)。 a。 . 金融 b. . 电信 c. 。 互联网 d。 . 公共管理 6大数据不是要教机器像人一样思考。相反,它是(A)。 a。 . 把数学算法运用到海量的数据上来预测事情发生的可能性 b。 . 被视为人工智能的一部 c。 . 被视为一种机器学习 d. . 预测惩罚 7人人之间沟通信息、传递信息的技术,这指的是(D)。 a. 。 感测技术 b。 。 微电子技术 c. 。 计算机技术 d。 . 通信技术 8数据清洗的方法不包括(D). a. . 缺失值处理 b。 . 噪声数据清除 c. 。 一致性检查 d. . 重复数据记录处理 9。 下列关于舍恩伯格对大数据特点的说法中,错误的是(D) A。 数据规模大 B. 数据类型多样 C。 数据处理速度快 D. 数据价值密度高 10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这 指的是(D)。 a. 。 富数据 b。 . 贫数据 c. 。 繁数据 d. 。 大数据 11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从中发现新知识、创造新价值、提升新能力的(D)。 a. 。 新一代信息技术 b。 。 新一代服务业态 c。 . 新一代技术平台 d. . 新一代信息技术和服务业态 12万维网之父是(C) A。 彼得·德鲁克 B. 舍恩伯格 C。 蒂姆·伯纳斯—李 D. 斯科特·布朗 13下列演示方式中,不属于传统统计图方式的是(D)。 A、柱形图 B、饼状图 C、曲线图 D、网络图 14当前社会中,最为突出的大数据环境是(A)。 A、互联网 B、物联网 C、综合国力 D、自然资源 15可以对大数据进行深度分析的工具是(C). A、浅层神经网络 B、Scala C、深度学习 D、MapReduce 16大数据的起源是(C)。 A、金融 B、电信 C、互联网 D、公共管理 17智慧城市的构建,不包含(C)。 A、数字城市 B、物联网 C、联网监控 D、云计算 18大数据的4V特征中的Volume是指(D)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 19大数据的4V特征中的Variety是指(C)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 20大数据的4V特征中的Velocity是指(B)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 21下列关于大数据的分析理念的说法中,错误的是(D). A、在数据基础上倾向于全体数据而不是抽样数据 B、在分析方法上更注重相关分析而不是因果分析 C、在分析效果上更追究效率而不是绝对精确 D、在数据规模上强调相对数据而不是绝对数据 22大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进 行(B)。 A、数据信息 B、专业化处理 C、速度处理 D、内容处理 23大数据的核心就是(B)。 A、告知许可 B、预测 C、匿名化 D、规模化 24人人之间沟通信息、传递信息的技术,这指的是(D)。 A、感测技术 B、微电子技术 C、计算机技术 D、通信技术 25大数据的最显著特征是(A)。 A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高 28大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从中发现新知识、创造新价值、提升新能力的(D)。 A、新一代信息技术 B、新一代服务业态 C、新一代技术平台 D、新一代信息技术和服务业态 29 下列关于普查的缺点的说法中,正确的是(A)。 A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象 B. 误差不易被控制 C. 对样本的依赖性比较强 D。 评测结果不够稳定 30 下列关于聚类挖掘技术的说法中,错误的是(B) A不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B需求同类数据的内容相似度尽可能小 C要求不同类数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值