
大数据
搬砖大师傅
这个作者很懒,什么都没留下…
展开
-
大数据-第15章 hbase 概况
1.hbase简介答:hadoop database是一个高可靠、高性能、面向列、可伸缩、实时读写的分布式数据库,是主要用来存储非结构化和半结构化的松散数据。2.关系数据库和hadoop面临的问题答:①hadoop可以很好地解决大规模数的离线批量处理问题,但是,受限于hadoop MapReduce编程框架的高延迟数据处理机制,使的hadoop无法满足大规模数据实时处理应用的需求;②HDFS是批量访问模式,不是随机访问模式;③关系型数据库无法应对在数据规模剧增时导致系统扩展性和性能问题;④传原创 2020-08-19 10:42:13 · 803 阅读 · 0 评论 -
大数据-第13章 elasticsearchL 概况
1.数据类型答:①结构化(关系型数据库:MySQL);②非结构化:文本文档,图片;③半结构化:json、xml。2.elasticsearch答:elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎,设计用于云计算中,能够实现实时搜索、稳定、可靠、快速、安装使用方便。3.ES与SOLR答:①接口:ES提供REST风格的访问接口;SOLR提供类似webservice的接口;②分布式存储:SOLR 4.x才支持,ES是为分布式而生成的;③支持格式:SOLR支持XML原创 2020-08-19 10:37:51 · 157 阅读 · 0 评论 -
大数据-第12章 spark-streaming概况
1.流数据的特征答:①数据快速持续到达,潜在大小也许是无穷无尽的;②数据来源从多,格式复杂;③数据量大,但不关注存储,一旦经过处理,要么丢弃,要么归档存储;④注重数据的整体价值,不过分关注各别数据;⑤数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序。2.数据处理模式答:①批量处理:处理静态数据,如hadoop;②实时计算:处理流数据,如spark streaming。3.流计算答:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息。流计算秉承原创 2020-08-19 10:34:30 · 291 阅读 · 0 评论 -
大数据-第11章 spark-SQL 概况
1.shark答:hive on spark ,是为了实现与hive兼容,Shark在hiveQL方面重用了hive中hiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MapReduce作用替换成了spark作业,通过hive的hiveQL解析,把hiveQL翻译成spark上的RDD操作。2.shark面临的问题答:①一些执行优化完全依赖于hive,不方便添加新的优化策略;②spark是线程级并行,而MapReduce是进程级并行,因此spark在兼容hiv原创 2020-08-07 23:07:30 · 310 阅读 · 0 评论 -
大数据-第10章 spark 概况
执行流程①用户编写spark语句运行程序②生成一个application以及运行环境driver③生成一个sparkcontext以及向资源管理器申请运行application的资源④资源管理器向exceutor分配资源,并且启动exceutor⑤sparkcontext解析spark程序(1).生成spark的RDD对象(2).根据RDD对象生成DAG关系依赖图(3).将DAG关系依赖图交给DAGScheduler(4). DAGScheduler解析成一个个的stage(5).将s.原创 2020-08-07 23:05:17 · 426 阅读 · 0 评论 -
大数据-第09章 Scala 基础应用
1.命令式编程和函数式编程答:命令式编程涉及多线程之间的状态共享,需要锁机制实现并发控制;函数式编程不会在多个线程之间共享状态,不需要用锁机制,可以更好并行处理,充分利用多核CPU并行处理能力。2.Scala语言答:Scala是一门类java的多范式语言,它整合了面向对象和函数式编程的最佳特性,纯粹的面向对象的语言。3.Scala两种类型的变量答:var :是可以改变的,声明的时候需要进行初始化,初始化后可以再次对其赋值。Val :是不可变的,声明的时候需要进行初始化,初始化以后就不可以在原创 2020-08-01 18:00:00 · 299 阅读 · 0 评论 -
大数据-第08章 kafka 结构原理图
结构流程:①生产者将消息写入主题topic②topic将消息放入分区③分区将消息存储,并发送给kafka broker(kafla节点)④kafka节点将消息分发与关注了主题topic的各个消费者组⑤消费者与消费者组签订reblance,平均分配分区信息,并且一个消费者组里面只能有一个消费者消费给主题的消息。kafka简介答:kafka是一个分布式、支持分区、多副本的、基于zookeeper协调的分布式消息系统。可以实时的处理大量数据以满足各种需求场景,用Scala语言编写的。2.br.原创 2020-07-29 23:01:46 · 261 阅读 · 0 评论 -
大数据-第07章 hive 结构原理图
执行流程:①客户编写hiveQL语句,并发送与hive服务器Driver②根据语句在数据源里面查找元数据③根据语句进行解释、编译、优化并发送与hadoop(1)将hiveQL语句先转换为抽象语法树(2)将抽象语法树转换为查询块(3)将查询块转换为逻辑查询计划(4)将查询计划语句进行优化,去重,(5)将逻辑查询计划转换为物理计划(6)优化物理计划,选出最优的策略发送与hadoop进行执行④hadoop接收优化后的方案执行调用hdfs和MapReduce来执行⑤客户端访问hadoop获取.原创 2020-07-25 21:51:21 · 804 阅读 · 0 评论 -
大数据-第06章 zookeeper结构原理图
执行流程:①客户端向服务端发送请求②sever 服务器接收客户端请求(通过选举机制选举出follower服务器和leader服务器,若sever自身弃权,则变成观察者身份,只能执行后期的命令,没有投票权)③follower(server)服务器将接收的信息发送到leader(server)④leader接收follower的消息,并集合所有server来判断是否执行客户端请求(过半原则来判断,超过一半的server同意执行,才可以执行)⑤将所有的sever判断的结果放入消息队列中,发送给所有se.原创 2020-07-19 17:39:24 · 963 阅读 · 0 评论 -
大数据-第05章 YARN结构原理图
执行流程:①客户端向RM发送执行请求②RM接收请求,并创建一个容器用来执行AM,启动后与RM保持心跳,随时给RM反应情况。③AM向RM发送请求,申请相应的容器(内存、CPU等资源)④将申请的资源放入相应的容器中⑤AM对调用容器的资源,NM启动执行程序,并与NM进行通信⑥NM对AM保持心跳,同时NM向AM发送任务执行情况和资源的使用情况1.yarn概述答:yarn是一个通用资源管理系统和调度平台,可以为上层应用提供统一的资源管理和调度,为一些运算提供一些资源,它的引入为集群在利用率、资源统.原创 2020-07-18 22:16:28 · 992 阅读 · 0 评论 -
大数据-第04章 MapReduce结构原理图
1.分布式计算编程与传统计算编程框架的区别?答:2.MapReduce概述答:.MapReduce是一个将复杂的、运行与大规模集群上的并行计算过程抽象成两个函数map和reduce,采用分而治之的策略,将一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个map任务处理,设计理念就是以计算想数据靠拢。架构采用master/slave,一个master和若干slave,master上运行jobTracker(ResourceManger),salve上运行TaskT.原创 2020-07-16 22:46:57 · 463 阅读 · 0 评论 -
大数据-第03章 文件管理系统结构原理图(HDFS)
1.HDFSl流程介绍原创 2020-07-09 22:30:37 · 577 阅读 · 0 评论