
大数据
文章平均质量分 84
DHRJFH
这个作者很懒,什么都没留下…
展开
-
spark面试题
1.spark中的RDD是什么,有哪些特性?答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集群计算Resilient:表示弹性的,弹性表示1.RDD中的数据可以存储在内存或者磁盘中;2.RDD中的分区是可以改变的;五大特性:1.A list of partitions:一个分区列原创 2021-08-27 22:11:32 · 1757 阅读 · 0 评论 -
spark 性能优化与故障处理
Spark 性能调优第一章Spark 性能调优1.1常规性能调优1.1.1常规性能调优一:最优资源配置Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示:代码清单2-1 标准Spark提交脚本/usr/opt/modules/spark/bin/spark-submit –原创 2021-08-27 22:10:27 · 749 阅读 · 0 评论 -
数仓面试题
数仓面试题问题一:什么叫数据仓库?数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,它用于支持企业或者组织的决策分析处理数据仓库是为了便于多维分析和多角度展现而将数据按特定模式进行存储所建立起来的关系型数据库,他的数据基于OLTP系统。首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了充足,并包含历史数据,而且存放在数据仓库中的数据一般不再进行修改问题二:为什么需要数据仓库建模?数仓建模需要按照一定原创 2021-08-27 22:08:58 · 2974 阅读 · 0 评论 -
大数据部分总结
HadoopHADOOP是apache旗下的一套开源软件平台提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理HADOOP的核心组件有HDFS(分布式文件系统)ARN(运算资源调度系统)MAPREDUCE(分布式运算编程框架)重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具HBASE:基于HADOOP的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件M原创 2021-08-27 22:06:00 · 1111 阅读 · 0 评论 -
大数据面试题2
大数据项目之企业级数据仓库实战第一章 数据仓库概述1.1数据仓库简介1.1.1什么是数据库?数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。常用的数据库有 MySQL、ORACLE、SQL Server 等。1.1.2什么是数据仓库?数据仓库是决原创 2021-08-27 22:03:27 · 1466 阅读 · 0 评论 -
大数据面试题
大数据项目之企业级数据仓库实战第一章 数据仓库概述1.1数据仓库简介1.1.1什么是数据库?数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。常用的数据库有 MySQL、ORACLE、SQL Server 等。1.1.2什么是数据仓库?数据仓库是决原创 2021-08-27 22:01:35 · 1335 阅读 · 0 评论 -
hive基础学习
6.1.1 全表和特定列查询1.全表查询hive (default)> select * from emp;2.选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)SQL 可以写在一行或者多行(3)关键字不能被缩写也不能分行(4)各子句一般要分行写。(5)使用缩进提高语句的可读性。6.1.2 列别名1.重命名一个列2.便于计算3.紧跟列名,也可以在列名和别名之间加入关键字‘原创 2021-08-27 21:59:53 · 495 阅读 · 0 评论 -
大数据hive
大数据技术hive第1章Hive基本概念第2章1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。mapreduce : 海量数据的分布式计算框架.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。mapreduce wordcount。jacktomjacktomjack// 编写sql语句.如何计算出每个次的数量.select name,count(*) from word grou原创 2021-08-27 21:58:16 · 338 阅读 · 0 评论 -
大数据技术之Zookeeper
第1章 Zookeeper概述1.1 概述zoo 动物园。keeper 管理员。hadoop 大象, hive蜜蜂,Pig 猪。Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master原创 2021-01-04 08:43:36 · 174 阅读 · 0 评论 -
shuffle过程简介
shuffle: 洗牌,清洗。// 源文件:public static void main hellohello static private asdfasdf ba c abcpublic 1static 2 hello 2*shuffle过程是MapReduce整个工作流程的核心环节map : mapShufflereduce: reduceShuffle **1.在Map端的shuffle过程:Map输出的结果首先被写入缓存,当缓存满时,启动溢写(环形缓冲原创 2021-01-04 08:42:30 · 1326 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce)
大数据技术之Hadoop(MapReduce)(作者:大数据研发部)版本:V1.4第1章MapReduce入门map 计算reduce 规约1.1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1.MapReduce原创 2021-01-04 08:41:26 · 557 阅读 · 0 评论 -
大数据技术之Hadoop阶段考试题及答案
入门1.简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。1)准备三台客户机(配置IP,配置主机名…)2)安装jdk,安装hadoop3)配置JAVA_HOME和HADOOP_HOME4)使每个节点上的环境变量生效(source /etc/profile)5)准备分发脚本 xsynca)**在/user/atguigu/bin下创建脚本:xsync6)明确集群的配置7)修改配置文件a)**core-site.xmlb)**hadoo原创 2021-01-04 08:39:06 · 4540 阅读 · 0 评论 -
hdfs
HDFSHadoop四大模块:common、HDFS、Yarn、MapReduce。1HDFS是什么?HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。2HDFS 从何原创 2021-01-04 08:37:29 · 527 阅读 · 0 评论 -
大数据 hadoop
1.HADOOP背景介绍1.1 什么是HADOOP1.HADOOP是apache旗下的一套开源软件平台2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理3.HADOOP的核心组件有A.HDFS(分布式文件系统)B.YARN(运算资源调度系统)C.MAPREDUCE(分布式运算编程框架)4.广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈1.2 HADOOP产生背景1.HADOOP最早起源于Nutch。Nutch的设计原创 2021-01-04 08:35:48 · 476 阅读 · 0 评论