
BigData
文章平均质量分 77
Android路上的人
开源社区爱好者, Apache Hadoop PMC & Apache Ozone PMC, 专注于分布式存储领域, 大数据方面的研究
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网站架构优化1,2,3,下面的几点你都用到了吗
本周闲着无聊,学习了下网站优化的相关知识,一个类似BAT这样每日访问几百万pv的网站,是如何做到不崩溃的。下面总结主要的几点: 1.前段优化,zhi原创 2014-08-04 11:48:44 · 1793 阅读 · 0 评论 -
当我们在谈论Flink的时候,我们到底在谈论些什么
前言目前每当我们聊到当下热门的计算引擎的时候,无一例外地会聊到Apache Flink:当下非常火热的流处理计算框架。更是有人拿它和Spark做对比,到底哪个才是现今最好的计算引擎。当然这个已经不是本文所要阐述的主题啦。老实话,笔者本人做的比较多的还是存储领域,对计算领域的知识不敢说是内行。最近也是抽空学习了下Flink的一些概念体系,来分享分享笔者的一个学习心得吧。# Apache Fli...原创 2018-12-08 15:43:12 · 1519 阅读 · 0 评论 -
流计算过程中对于窗口的处理方式
前言与传统批处理作业方式不同,实时流的计算处理过程是连续的。所以当我们在流式作业中要做传统的阶段统计工作(求和,取均值计算)的时候,需要在逻辑上对这些数据进行分片,然后再处理。本文我们来聊聊流计算过程中按照时间的处理方式。Window的概念在传统批处理的作业执行方式里,我们可以一次性读取入所有的输入数据,然后经过计算,再输出结果。对于原始数据,我们可以做任意我们想做的预处理工作,包括数据...原创 2018-12-12 10:52:50 · 2197 阅读 · 0 评论 -
大数据权限授权管理框架:Apache Sentry和Ranger
文章目录前言Sentry和Ranger的概述前言上篇文章后半部分提到了业界流行的大数据权限管理框架Apache Sentry和Ranger。二者在功能上具有很高的相似性,但是在具体细节上上篇文章阐述的还不够细致。本文笔者来深入浅出地聊聊这两个框架,以及它们的少许异同点。熟悉掌握使用外部权限管理框架,并且将它们合理地应用于自身内部大数据组件系统内,无疑将会大大提高内部组件使用的安全性。Sen...原创 2019-01-05 12:04:14 · 9703 阅读 · 0 评论 -
Flink FileSystem的connector分析
文章目录前言FileSystem的RollingSinkFileSystem连接器的Exactly Once恢复语义FileSystem Sink的文件状态转换Checkpoint下的Exactly Once恢复前言从目前最新的Flink代码来看,现在它能够支持越来越多的connector类型了,不仅仅说包括于前面的Source的连接,还有后面Sink的选择。但是Flink的连接器不是简简单...原创 2019-01-06 12:15:10 · 2884 阅读 · 0 评论 -
Flink JobManager的HA原理分析
文章目录前言前言在中心式管理的系统里,主节点如果只是单独服务部署的话,或多或少都会存在单点瓶颈(SPOF)问题。所以我们说现在的分布式系统都要求具有高可用性(High Availability)的实现。同样的,在早期Flink runtime层面,JobManager也没有完全做到HA的实现,这使得运行时的任务存在失败无法及时恢复的风险。不过在最新的代码里,Flink社区已经完善了这块的实现...原创 2019-01-12 11:30:20 · 2377 阅读 · 0 评论 -
Flink的State概述
文章目录前言Flink的State类型基本类型划分组织形式划分前言当我们经常在谈论一个Flink任务是否是有状态的,此时我们谈论的点其实就是Flink内部的State的概念。但是这里的State的概念已经不是单纯指我们平时所说的Event–>State这样的比较固定的概念,更确切地说,它是一种运行间的数据信息。这些状态数据在容错恢复及checkpoint时将起到很关键的作用。本文笔者来...原创 2019-01-18 23:14:02 · 7827 阅读 · 1 评论 -
分布式系统中Topology(Rack) Awareness的实现思路
文章目录前言为何要考虑Topology AwarenessTopology Awareness的一般实现思路Step1: Node Location赋予前言在分布式系统中,尤其是存储系统中,我们经常会看到类似“系统返回一个最近的数据”这样的句子”。当我们谈到一个数据“远近”的问题时,你可以说这是在谈数据locality的问题,但从更宏观的角度来看这个问题,它其实谈的是Topology Awa...原创 2019-01-20 20:49:39 · 1332 阅读 · 3 评论 -
分级副本存储:一种更具效益成本的数据容错策略
文章目录前言传统三副本模式是否从根本上解决数据丢失问题Copyset数据分布策略分级存储引用前言众所周知,在存储系统中,为了保障数据的高可用性,我们会通过保存多个副本来防止因为机器物理故障导致数据丢失的现象。在一个集群(数据中心)内,我们会设定多个副本。甚至我们做的时候做的更完善一些,还做到异地数据的同步,这可能是完全集群的数据同步了。当然企业将数据做到异地多活本身初衷没用问题,但是成本开销...原创 2019-03-03 12:15:26 · 1446 阅读 · 0 评论 -
Dynamometer:HDFS性能扩展测试工具
文章目录前言前言现在稍微具有一定规模的涉及到大数据存储的公司,或多或少都会使用到HDFS作为其数据的存储系统。在不同的公司企业内,不同的应用需求对应会构建出不同级别规模的集群,小则几十台,大则成千上万个节点。当然很多时候,我们的集群规模一般不是一蹴而就就达到一个相当大的规模,在前期的时候往往都是由小集群开始的。随后,再不断不断地进行扩容,扩张。随着集群规模的扩展,运维人员会碰到各种针对那时规...原创 2019-03-13 23:11:53 · 20939 阅读 · 0 评论 -
HDFS源码分析(二)-----元数据备份机制
前言在Hadoop中,所有的元数据的保存都是在namenode节点之中,每次重新启动整个集群,Hadoop都需要从这些持久化了的文件中恢复数据到内存中,然后通过镜像和编辑日志文件进行定期的扫描与合并,ok,这些稍微了解Hadoop的人应该都知道,这不就是SecondNameNode干的事情嘛,但是很多人只是了解此机制的表象,内部的一些实现机理估计不是每个人都又去深究过,你能想象在写入编辑日志的过程原创 2015-08-15 17:47:02 · 4973 阅读 · 3 评论 -
Hadoop分布式文件系统--HDFS结构分析
前言在Hadoop内部,具体实现了许多类的文件系统,当然最最被我们用到的就是他的分布式文件系统HDFS了。但是本篇文章不会讲HDFS的主从架构等东西,因为这些东西网上和资料书中都讲得很多了。所以,我决定以我个人的学习所得,来讲讲HDFS内部的一些有意思的东西,也作为一个起始点,为后续继续深入其中模块的学习做基础。HDFS两大主流关系模块与NameNode相关,文件系统元数据操作相关。包括文件目录树原创 2015-08-09 16:57:52 · 4323 阅读 · 1 评论 -
Storm自定义调度器实现--DirectScheduler
前言最近在研究Storm的任务调度相关的知识,于是就想要试着去改造一下Storm的任务调度,来满足一下现实状况中的一些场景。Storm调度的相关术语在看Storm的Scheduler代码么之前,得要弄明白几个概念,这样可以帮助大家更好的理解后面的调度过程。 1、slot。这代表一个Supervisor节点上的一个单位资源。每个slot对应一个port,一个slot只能被一个Worker占用。 2原创 2015-07-10 20:52:25 · 5203 阅读 · 0 评论 -
淘宝架构技术的演变
我们都知道,淘宝网的横空出世是在2003年,也就是但年SARS流行的时候,当初淘宝用的是现在看来也是十分流行的LAMP架构,即Linux+Apache+MySql+Php,的一个非常常用的架构模型,当时淘宝已经使数据库实现了读写分离,从数据库都只能是支持只读操作,在主数据库上才能进行写操作,同时,有了备份,也使得安全性也增加了。 随着淘宝网的发展规模迅速,当初的那个小网站已经不足以支撑原创 2014-09-28 15:48:08 · 4704 阅读 · 0 评论 -
Hadoop入门分析
今天本人复习了一下,当下最流行的分布式计算平台,Hadoop,在此平台上开发,可以屏蔽程序员在大数据处理上的所要考虑的各种,多线程,高并发的问题。好,下面就好好的了解一下什么是Hadoop。 Hadoop是Apache旗下的一个开源分布式平台。以Hadoop文件系统(HDFS)和MapReduce计算模型为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。Hadoop中的HDF原创 2014-09-30 10:56:52 · 1928 阅读 · 0 评论 -
高级数据库典型技术
数据库作为计算机学科中一个比较重要的分支,也是一个对于程序员来说非常好的学习方向。平时我们用的最多的,同时也是接触最多的一定是增删改查语句,select,update,delete等,当然,我不会拿这些再说一遍,这些都是老的掉渣的东西了。所以我们可以学习高级数据库中所以涉及的技术。换句话,其实就是抛开业务层的逻辑,从更加深层次的角度理解数据库。今天我主要提交3个技术点,1.数据索引技术,典型的B+树索引系列2.数据库故障恢复技术,我这里只提的是基于日志的恢复技术3.数据库系统结构,讲讲时下流行的分布原创 2014-10-09 21:18:36 · 3283 阅读 · 0 评论 -
大话NoSql
之前看过一本名叫大数据挑战的书>>,里面主要讲了NOSQL的内容,感觉讲得确实不错,今天来重新温习一下,我们大话NOSQL。说道NOSQL,我们肯定联想到的内容就是BigData大数据了,不错,当今的时代就是大数据的时代了。如果放在前几年,互联网还没有这么发达的情况下,也许谁也不会听过这个名词。在讲正题的时候,我做了张图来看看一般服务端架构在面对业务发展的需要时候,一般的演变趋势:所以原创 2014-10-03 17:10:29 · 3237 阅读 · 0 评论 -
爬虫的学习分析
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2015-04-21 22:23:55 · 3966 阅读 · 1 评论 -
HBase简单介绍
前言本周学习了部分关于Hadoop生态圈周边的一些系统,简单的做个小结,本篇文章主要讲的是HBase的介绍。HBase是一个在HDFS上构建的面向列的分布式数据库,他与传统的RDBMS还是有许多的不同之处的。HBase的出现可以解决海量数据存储的问题,而且他可以比较容易的解决伸缩性的问题,这个在以往的传统关系型数据库中都是很大的难题。下面是简单的对于HBase的介绍。HBase介绍先说原创 2015-05-10 20:46:28 · 2359 阅读 · 0 评论 -
Zookeeper学习
前言一般人对于zookeeper的绝大多数印象就是他是用来做协调服务的,不管说是Hadoop,HBase,Storm等等这些计算平台,都或多或少用到了这个zookeeper"动物管理员"。使用的方法都很简单,首先搭建一个zookeeper集群,然后在配置文件中指定一下ip:host,然后就可以用了,但是很少有人会问,zookeeper是如何进行工作的,他是如何为其他节点进行服务的呢。2PC原创 2015-06-07 21:42:23 · 3605 阅读 · 0 评论 -
Storm系统架构以及代码结构学习
前言什么是storm,storm是做什么的,一个简单的描述,你可以理解为是一个“准实时”的Hadoop,Hadoop是专门做的是离线数据处理,而storm则弥补了Hadoop在这方面的不足,他是一个实时数据处理的平台。至于Storm的各种由来,就不一一在这里废话了,之前我写的某篇文章讲述了部分的Storm的代码结构,详情点击这里。Storm的总体架构先来了解一下Storm的整体结构,S原创 2015-05-24 21:13:53 · 4790 阅读 · 0 评论 -
Hadoop Balancer源码解读
前言最近在做一些Hadoop运维的相关工作,发现了一个有趣的问题,我们公司的Hadoop集群磁盘占比数值参差不齐,高的接近80%,低的接近40%,并没有充分利用好上面的资源,但是balance的操作跑的也是正常的啊,所以打算看一下Hadoop的balance的源代码,更深层次的去了解Hadoop Balance的机制。原创 2015-06-10 19:58:43 · 6585 阅读 · 10 评论 -
存储系统“数据之眼”的设计--数据探查服务
文章目录前言数据探查服务的初始点:元数据的同步数据探查服务的分析:索引结构的重新构建数据探查服务的结果:汇聚表DB的存储数据探查服务的额外功能:节点级别的统计数据探查服务的外部展现:用户控制台引用前言在大规模量级的分布式存储系统中,很多时候管理员以及用户都有特定条件的查询需求:比如用户哪个目录文件数据量是最多的?还有对于管理员的需求:哪个节点上存储的文件数量最多,又或者是否存在损坏数据块文件...原创 2019-03-24 22:13:43 · 29181 阅读 · 0 评论