大数据技术原理与应用(第3版)期末复习

(单选30 判断10 简答10 操作30 编程20)

编程掌握:

HDFS文件操作

MapReduce程序

HBase数据库命令操作

U1

大数据的4v特征

数据量大、处理快、数据类型多、价值密度低

大数据完全颠覆了传统的思维方式:

全样而非抽样、

效率而非精确、

相关而非因果

第三次信息化浪潮:云计算,物联网和大数据

大数据的两大核心技术

  • 分布式存储:GFS/HDFS、BigTable/HBase、NoSQL

  • 分布式处理:MapReduce

Hadoop相关组件

MapReduce:分布式并行编程模型

HBase:非关系型分布式数据库

YARN:资源管理调度器

Hive:数据仓库

Pig:语言+环境

Sqoop:数据传输

Zookeeper:协同工作系统,提供协调一致服务

Flume:日志系统

Storm:流计算框架

Tez:支持DAG作业的计算框架

Spark:通用并行框架

Kafka:分布式发布订阅消息系统

  • ==批处理计算:MapReduce、Spark==

  • 查询分析计算:Dremel、Hive

  • 流计算:Storm、Flume

Apache最重要的三大分布式计算系统开源项目包括(ABC)

A. Hadoop

B. Storm

C. Spark

U2 Hadoop

Hadoop是开源分布式平台,具有很好的跨平台性

核心是HDFS(Hadoop Distributed File System)和MapReduce

Hadoop的特性:

高可靠性、高效性、高可扩展性、高容错性、成本低、运行在LinuxOS、支持多种编程语言

Hadoop1.0/2.0

两代比较:

1.0:单一NameNode存在单点故障问题

2.0:HDFS HA,提供NameNode热备份机制

  • HA集群设置两个名称节点,“==活跃==(Active)”和“==待命==(Standby)”,两种名称节点的状态同步

1.0:无法实现资源隔离

2.0:HDFS Federetion 管理多个命名空间

  • Federation中,设计了多个相互独立的NameNode,相互之间是联盟关系,不需要彼此协调。

  • Federation中,所有NameNode会共享底层的DataNode存储资源,DataNode向所有NameNode汇报。

  • Federation并不能解决单点故障问题,需要为每个NameNode部署一个后备NameNode

  • 属于同一个命名空间的块构成一个“块池

1.0:资源管理效率低

2.0:资源管理框架YARN

  • MapReduce1.0中的资源管理调度功能被单独分离出来形成了YARN,是一个纯粹的资源调度框架

U3 HDFS

廉价兼容的硬件、流数据集、

简单文件模型:'==一次写入、多次读取==',且仅能写入一次,仅允许追加

跨平台:支持JVM的都可以运行

  • 无法高效存储大量小文件

  • 不支持多用户写入及任意修改文件

  • 不适合低延迟数据访问

  • 一个磁盘块512字节,是文件读写的最小单位

  • 文件以块(Block)为单位进行存储,块通常是磁盘块的整数倍

  • HDFS默认一个块64MB

  • 不同的文件块可以被分发到不同的节点上

块概念的优点:

  • 支持大规模文件存储

  • 简化系统设计

  • 适合数据备份

  • 主节点(Master Node)也叫NameNode

  • NameNode作为中心服务器,管理NameSpace及Client文件访问

  • 负责文件和目录的操作,管理DataNode和文件块的映射关系,Client只有访问NameNode才能找到Block位置

  • 从节点(Slave Node)也叫DataNode

大数据技术应用题库 单选题: 1从大量数据中提取知识的过程通常称为(A)。 a。 。 数据挖掘 b。 。 人工智能 c. . 数据清洗 d。 。 数据仓库 2下列论据中,能够支撑"大数据无所不能"的观点的是(A)。 A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露信息安全担忧 3数据仓库的最终目的是(D)。 a。 。 收集业务需求 b。 . 建立数据仓库逻辑模型 c. . 开发数据仓库应用分析 d. 。 为用户和业务部门提供决策支持 4大数据处理技术和传统的数据挖掘技术最大的区别是(A). a。 。 处理速度快(秒级定律) b. . 算法种类更多 c. . 精度更高 d. 。 更加智能化 5大数据的起源是(C)。 a。 . 金融 b. . 电信 c. 。 互联网 d。 . 公共管理 6大数据不是要教机器像人一样思考。相反,它是(A)。 a。 . 把数学算法运用到海量的数据上来预测事情发生的可能性 b。 . 被视为人工智能的一部 c。 . 被视为一种机器学习 d. . 预测惩罚 7人人之间沟通信息、传递信息的技术,这指的是(D)。 a. 。 感测技术 b。 。 微电子技术 c. 。 计算机技术 d。 . 通信技术 8数据清洗的方法不包括(D). a. . 缺失值处理 b。 . 噪声数据清除 c. 。 一致性检查 d. . 重复数据记录处理 9。 下列关于舍恩伯格对大数据特点的说法中,错误的是(D) A。 数据规模大 B. 数据类型多样 C。 数据处理速度快 D. 数据价值密度高 10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这 指的是(D)。 a. 。 富数据 b。 . 贫数据 c. 。 繁数据 d. 。 大数据 11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从中发现新知识、创造新价值、提升新能力的(D)。 a. 。 新一代信息技术 b。 。 新一代服务业态 c。 . 新一代技术平台 d. . 新一代信息技术和服务业态 12万维网之父是(C) A。 彼得·德鲁克 B. 舍恩伯格 C。 蒂姆·伯纳斯—李 D. 斯科特·布朗 13下列演示方式中,不属于传统统计图方式的是(D)。 A、柱形图 B、饼状图 C、曲线图 D、网络图 14当前社会中,最为突出的大数据环境是(A)。 A、互联网 B、物联网 C、综合国力 D、自然资源 15可以对大数据进行深度分析的工具是(C). A、浅层神经网络 B、Scala C、深度学习 D、MapReduce 16大数据的起源是(C)。 A、金融 B、电信 C、互联网 D、公共管理 17智慧城市的构建,不包含(C)。 A、数字城市 B、物联网 C、联网监控 D、云计算 18大数据的4V特征中的Volume是指(D)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 19大数据的4V特征中的Variety是指(C)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 20大数据的4V特征中的Velocity是指(B)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 21下列关于大数据的分析理念的说法中,错误的是(D). A、在数据基础上倾向于全体数据而不是抽样数据 B、在分析方法上更注重相关分析而不是因果分析 C、在分析效果上更追究效率而不是绝对精确 D、在数据规模上强调相对数据而不是绝对数据 22大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进 行(B)。 A、数据信息 B、专业化处理 C、速度处理 D、内容处理 23大数据的核心就是(B)。 A、告知许可 B、预测 C、匿名化 D、规模化 24人人之间沟通信息、传递信息的技术,这指的是(D)。 A、感测技术 B、微电子技术 C、计算机技术 D、通信技术 25大数据的最显著特征是(A)。 A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高 28大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从中发现新知识、创造新价值、提升新能力的(D)。 A、新一代信息技术 B、新一代服务业态 C、新一代技术平台 D、新一代信息技术和服务业态 29 下列关于普查的缺点的说法中,正确的是(A)。 A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象 B. 误差不易被控制 C. 对样本的依赖性比较强 D。 评测结果不够稳定 30 下列关于聚类挖掘技术的说法中,错误的是(B) A不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B需求同类数据的内容相似度尽可能小 C要求不同类数据
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值