
大数据平台建设理论和工程实践
文章平均质量分 88
大数据平台建设相关理论,实践,业界趋势等
彩色蚂蚁
- 个人兴趣爱好多变,擅长从入门到放弃,对徒步,摄影,桌游,乐高等各类自闭活动尤为喜好。
展开
-
大数据平台基础架构指南
之前的文章,整理了一下,补充了一些内容,做了一些更新,现已出版上市了。无耻的推广一下哈 ;) 淘宝,JD都有现货,Amazon貌似还是预售状态中感谢博文视点的@侠少,感谢各位替本书写推荐语软文的朋友们,感谢之前蘑菇街大数据团队的各位小伙伴。目录列表:第1章 大数据平台整体建设思想 11.1 什么是大数据平台 11.2 大数据平台的建设目标 31.2.1 别人的大数据平台是怎样的 31.2....原创 2018-07-07 13:03:39 · 23364 阅读 · 5 评论 -
大数据平台-元数据管理系统解析
什么是元数据?在前面的集成开发环境建设相关文章中,我们也提到过,元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。管理这些附加MetaData信息的目的,一方面是为了让用户能够更高效的挖掘和使用...原创 2018-03-14 09:25:24 · 54411 阅读 · 8 评论 -
深入探讨大数据权限管理方案-从哲学到技术
不论是在技术层面还是在产品层面,大数据平台环境下的权限管理工作都是一个让人伤脑筋的烫手山芋,它不仅仅是一个技术问题,还是一个业务问题,甚至还可能是一个人际沟通和权衡利益得失的哲学问题。。。所以,以下内容分两部分展开,先谈哲学问题,再谈技术问题。原创 2017-11-30 09:49:09 · 16601 阅读 · 3 评论 -
大数据开发平台-数据同步服务
同步一切原创 2017-09-21 13:38:35 · 18778 阅读 · 0 评论 -
集成开发环境-大数据开发平台的门户
全家桶,来一份?原创 2017-09-05 09:24:11 · 7443 阅读 · 0 评论 -
日志采集与用户行为链路跟踪
日志采集这部分内容,其实在上一篇文章 阿里巴巴大数据实践-读书笔记 里面多多少少已经提到了一些。不过正如前文提到的,这部分内容,从技术的角度来说,未必有多么高深,但是从业务角度来说,要做到完善却也很难,特别是在分析用户行为链路的场景下,所以这篇专门来讨论一下这一块的内容。原创 2017-08-22 09:20:23 · 16940 阅读 · 1 评论 -
那些年,我们迁移过的大数据集群
大数据集群迁移这件事,不知道有多少同学做过。我说的不是把一个集群的数据备份到另一个集群上。我指的是整个数据平台与大数据相关的所有集群及业务的迁移工作,从一个机房到另一个机房。这事,我们已经做了三次了。。。原创 2017-08-08 09:36:20 · 11939 阅读 · 9 评论 -
数据可视化平台理论与实践
前面说完了大数据开发平台的核心组件,作业调度系统,接下来讨论一下大数据开发平台的脸面之一,数据可视化平台。原创 2017-08-02 09:32:26 · 25262 阅读 · 7 评论 -
数据平台作业调度系统详解-实践篇
上一篇文章,讨论了作业调度系统的分类,流派,架构实现方案和各种方案的优缺点以及适用场景,最后还简单总结了理想中,一个完备的工作流作业调度系统,应该具备哪些功能特性。但是,纸上得来终觉浅,绝知此事要躬行。实践才是硬道理。我司刚巧在开发工作流作业调度系统这块有一些实践经验,所以这篇文章来和大家探讨一下过去两年多来,我司Jarvis调度系统的产品功能定位,架构实现以及经验教训。原创 2017-07-25 09:34:19 · 30697 阅读 · 12 评论 -
数据平台作业调度系统详解-理论篇
前面放完建设四个现代化大数据平台乌托邦理想的大卫星,接下来的文章得谈谈具体组件的生产大跃进了。第一篇,先来讨论一下大数据开发平台的核心组件之一:作业调度系统。作业调度系统是一个相对复杂的系统,涉及的内容繁杂,针对的场景多种多样,实现的方案千差万别。本文重点谈理论,会先从大的场景划分的角度对市面上的各种调度系统进行分类讨论,然后再针对具体的作业调度系统,探讨一下各自的优缺点原创 2017-07-13 18:50:32 · 14806 阅读 · 10 评论 -
分布式一致性协议Raft,以及难搞的Paxos
分布式一致性协议Raft & Paxos 简单 v.s. 完美原创 2017-06-29 13:47:21 · 8088 阅读 · 1 评论 -
“王者荣耀”与大数据平台的产品化思想
以“荣耀”的名义原创 2017-06-21 12:30:32 · 4374 阅读 · 0 评论 -
如何构建用户满意的“服务化”数据平台
同志们辛苦了,为人民服务~原创 2017-06-13 12:29:33 · 4519 阅读 · 1 评论 -
为建设四个现代化的大数据平台奋斗终身
所以,你要问,做为大数据务虚系列文章的第一篇,就想搞个大新闻,放一个有中国特色的四个现代化的社会主义大数据平台的卫星么?原创 2017-06-08 18:42:27 · 2232 阅读 · 1 评论 -
RC ORC Parquet 格式比较和性能测试
RC ORC Parquet 格式比较和性能测试作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.youkuaiyun.com/colorant/为什么要比较这三者为什么要比较,起因是为了提高Hadoop集群的存储和计算效率,尤其是离线Hive作业的效率,为什么比较的是这三者,是因为三者是目前Hive离线作业中正在大规模使用或原创 2016-12-16 21:48:37 · 19377 阅读 · 1 评论 -
Spark 性能相关参数配置详解-任务调度篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 任务调度篇原创 2014-08-19 14:47:27 · 35575 阅读 · 9 评论 -
Spark 性能相关参数配置详解-压缩与序列化篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 压缩与序列化篇原创 2014-08-19 14:47:15 · 22688 阅读 · 1 评论 -
Spark 性能相关参数配置详解-Storage篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。-storage篇原创 2014-08-19 14:37:49 · 48482 阅读 · 5 评论 -
Spark 性能相关参数配置详解-shuffle篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。原创 2014-08-19 13:48:08 · 27923 阅读 · 5 评论 -
spark internal - 作业调度
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/在Spark中作业调度的相关类最重要的就是DAGScheduler,DAGScheduler顾名思义就是基于DAG图的SchedulerDAG全称 DirectedAcyclic原创 2014-04-18 13:19:20 · 14780 阅读 · 2 评论 -
Memcached 及 Redis 架构分析和比较
Memcached和Redis作为两种Inmemory的key-value数据库,在设计和思想方面有着很多共通的地方,功能和应用方面在很多场合下(作为分布式缓存服务器使用等) 也很相似,在这里把两者放在一起做一下对比的介绍原创 2014-03-12 14:27:54 · 109144 阅读 · 2 评论 -
快速理解Docker - 容器级虚拟化解决方案
简单的说Docker是一个构建在LXC之上的,基于进程容器(Processcontainer)的轻量级VM解决方案原创 2014-03-06 09:52:01 · 233762 阅读 · 13 评论 -
Spark internal - 多样化的运行模式 (下)
上一篇中介绍了Spark的各种运行模式的基本流程和相关实现,这里主要分析一下各种运行模式中涉及到的一些细节问题的流程和实现原创 2014-01-21 14:25:54 · 9193 阅读 · 0 评论 -
Spark internal - 多样化的运行模式(上)
Spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行。而当以分布式的方式运行在Cluster集群中时,底层的资源调度可以使用Mesos 或者是Hadoop Yarn ,也可以使用Spark自带的Standalone Deploy模式原创 2014-01-20 10:43:29 · 17385 阅读 · 0 评论 -
HBase MapReduce Job 某些节点随机慢的问题的研究
这段时间在做HBase的MR Scan的时候遇上了一个Random Lag behind Task的问题,花了很长时间Trouble shooting,其间使用各种工具,脚本profile了各种参数,过程大致Share如下,很长,有兴趣的同学随便看看,一开始用英文写的,太长,懒得用中文再写一遍了: === Environment === 1 master node + 4原创 2013-01-16 17:08:26 · 3840 阅读 · 0 评论 -
Hadoop小集群上减少MR任务调度延迟
作者:刘旭晖 Raymond转载请注明出处Email:colorant at163.comBLOG:http://blog.youkuaiyun.com/colorant/ 最近在Hadoop1.0.4稳定版上搭的1+4节点上运行MR Job,遇到一些Latency的问题,记录Share一下在 hadoop 1.0.4的版本中,Jjobtracker默认的最小Heartbe原创 2012-12-13 10:36:38 · 3510 阅读 · 2 评论 -
Hadoop与大数据技术大会2012PPT阅读笔记
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多文档论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145以下是Hadoop与大数据技术大会 2012 的一些PP原创 2012-12-10 15:23:23 · 6551 阅读 · 0 评论