
Big Data
文章平均质量分 91
卑微前端汪
这个人是真的懒,确实什么也没留下
展开
-
Flume
简介概述Flume是Cloudera公司开发的后来贡献给了Apache的一套用于进行日志的收集(collecting)、汇聚(aggregating)和传输(movlng)的机制在大数据中,有超过70%的数据来源是日志 - 日志是大数据的基石Flume版本:Flume0.X:Flume-og,配置结构复杂,并且对分布式支持不好Flume1.X:Flume-ng,配置结构进行简化,并且很好的支持分布式基本概念Event:事件Flume会将收集到的日志封装成Event对象,一原创 2022-03-30 18:02:16 · 2050 阅读 · 0 评论 -
MapReduce
简介概述MapReduce是Hadoop提供的一套分布式计算框架。从Hadoop2.0开始,MapReduce就是一个纯粹的计算框架MapReduce是Doug Cutting根据Google的The Google MapReduce来仿照实现的MapReduce会将整个计算过程拆分为2个阶段:Map(映射)阶段和Reduce(规约)阶段MapReduce在刚开始的时候,会对文件进行切片(Split)处理。切分完成之后,每一个Split会交给一个单独的MapTask来处理Split和Block原创 2022-03-08 21:50:35 · 1467 阅读 · 0 评论 -
YARN.
概述YARN(Yet Another Resource Negotiator,迄今另一个资源调度器)是Hadoop2.x中提供的一套用于进行集群的资源管理和任务调度的机制也正是因为YARN的出现,导致Hadoop2.x和Hadoop1.x不兼容。YARN是Hadoop2.x最重要的特性之一YARN的出现原因内部原因在Hadoop1.x中,MapReduce的主节点是JobTracker,作为主节点的JobTracker在Hadoop1.x中只允许存在1个,容易出现单点故障在Hadoop1.原创 2022-03-08 23:19:18 · 1637 阅读 · 0 评论 -
HDFS.
基本概念Block1.Block是HDFS中数据存储的基本形式,即在HDFS中,所有数据都是以Block形式来存储2.从Hadoop2.x开始,如果不指定,那么Block的默认大小是134217728B(128M)。可以通过dfs.blocksize来修改,单位是字节3.如果一个文件不足一个Block的默认大小,那么这个文件是多大,所对应的Block就是多大。例如一个文件是50M,上传到HDFS上之后对应的Block就是50M4.HDFS会为每一个Block分配一个递增的编号,称之为BlockId原创 2022-03-04 19:02:52 · 1893 阅读 · 0 评论 -
Hadoop
大数据简介6V特点Volume:数据体量打。在中小型企业中,数据量一般在TB级别;大型企业中,数据量在PB级别Variety:数据的来源、种类和样式多来源:数据库、爬虫、网页埋点、手动录入等种类:文本、图片、音频、视频、流媒体等样式:结构化数据、半结构化数据、非结构化数据Velocity:数据的增长速度越来越快。随着网络的发展,数据的产生、传播的增长速度逐渐变快。根据专家们的预测,全球的总数据量以后会以每3-5年翻一番的速度增长Value:数据的价值密度越来越低。价值密码指的是需要的原创 2022-03-01 14:35:19 · 785 阅读 · 1 评论 -
ZooKeeper
ZooKeeper简介概述Zookeeper是Yahoo!(雅虎)公司开发的后来贡献给了Apache的一套用于进行分布式协调的机制Zookeeper提供了中心化服务 - 充当了注册中心:统一配置信息,统一命名,提供了分布式锁服务,提供了分布式组服务Zookeeper是仿照了Google的The Chubby Lock Servie来实现的安装单机安装关闭防火墙# 临时关闭systemctl stop firewalld# 永久关闭systemctl disable firew原创 2022-02-25 10:10:01 · 197 阅读 · 0 评论