大数据
Cecilia3333
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
page cache简介
定义中文名称:页高速缓冲存储器,简称页高缓。单位:页。大小:动态变化,因为操作系统会将所有未直接分配给应用程序的物理内存都用于页面缓存。 文件系统层级的缓存:page cache用于缓存文件的页数据,从磁盘中读取到的内容是存储在page cache里的。结构在 Linux 的实现中,文件 Cache 分为两个层面,一是 Page Cache,另一个是 Buf...原创 2019-12-31 17:42:44 · 8534 阅读 · 0 评论 -
Yarn入门简介
定义∙ Yet Another Resource Negotiator —— 另一种资源协调者∙ 通用的资源管理模块,为各类应用程序进行资源管理和调度产生背景MapReduce本身存在一些问题: ∙ JobTracker单点故障问题 —— 如果Hadoop集群的JobTracker挂掉,则整个分布式集群都不能使用了。 ∙ JobTracker承受的访问...原创 2019-12-31 17:14:44 · 461 阅读 · 0 评论 -
大数据系列之zookeeper入门简介
定义Zookeeper是一个分布式服务框架,主要用来解决分布式应用中经常遇到的一些数据管理问题,为分布式应用提供一致性服务,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。特性∙ 顺序一致性——从同一个客户端发起的事务请求,最终将会严格地按照其发起顺序被应用到Zookeeper中去。∙ 原子性——所有事务请求的处理结果在整个集群中所有机器上的应用情况是一致的,即...原创 2019-12-31 17:03:42 · 319 阅读 · 0 评论 -
大数据系列之Spark入门简介
定义分布式批处理系统和分析挖掘引擎。特性1、高效性。Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG(无回路有向图)执行引擎,可以通过基于内存来高效处理数据流。2、易用性。Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。3、通用性。Spark提供了统一的...原创 2019-12-31 16:56:49 · 387 阅读 · 0 评论 -
Flink入门大全
定义∙ 一个批处理和流处理结合的统一计算框架∙ 核心是一个提供了数据并发以及并行化计算的流数据处理引擎特性∙ 提供准确的结果,甚至在出现无序或者延迟加载的数据的情况下∙ 它是状态化的容错的,同时在维护一次完整的的应用状态时,能无缝修复错误∙ 大规模运行,在上千个节点运行时有很好的吞吐量和低延迟无界流和有界流任何类型的数据都是作为事件流产生的。信用卡...原创 2019-12-31 16:49:45 · 544 阅读 · 1 评论 -
Kafka入门大全
定义一个分布式、分区的、多副本的实时消息发布和订阅系统。特点消息持久化——消息被持久化到本地磁盘,支持数据备份以防数据丢失高吞吐量——即使是普通硬件,Kafka也支持每秒数百万的消息可拓展性——搭建在分布式集群服务器上,支持水平无限拓展容错性——将数据副本存放在多台服务器上,避免服务器故障影响运行高并发——将数据分片后存在多台服务器上,在多台客户端上读取消息...原创 2019-10-16 20:55:20 · 317 阅读 · 0 评论
分享