
大数据
文章平均质量分 68
Vtamins
读研中
展开
-
如何进行实时任务优化-《阿里巴巴大数据之路》
如何进行实时任务优化独占资源和共享资源的策 略在一台机器中, 共享资源池可以被多个实时 任务抢占, 如果一个任 务在运行时 80% 以上的时间都需要去抢资源 ,这时候就需要考虑给它分 配更多的独占资源, 避免抢不到 CPU 资源导致吞吐量急剧下降。合理选择缓存机制, 尽量降低读写库次数内存读写性能是最好的, 根据业务的特性选择不同的 缓存机制, 让 最热和最可能使用的数据留 在内存中, 读写库次数降低后, 吞吐量自 然就上升了。计算单元合并, 降低拓扑层级拓扑结构层级越深 ,原创 2021-03-19 10:19:51 · 334 阅读 · 0 评论 -
Zookeeper踩坑记
还记得上一次配置Zookeeper是半年以前的事了,这半年一直没有改动Zookeeper的配置文件,直到实习回校,自己的集群没有,重新下载搭一个Zookeeper集群,使用的最新的Zookeeper 3.4.10,结果立马踩到了坑里面,搞了一两个小时才弄好。一配置Zookeeper二解决办法三分析原因一、配置Zookeeper我采用的是常见的配置。数据目录:/home/lee/data/zoo原创 2017-09-14 10:30:48 · 1053 阅读 · 0 评论 -
MapReduce原理总结
做大数据已经有一年了,在这一年中始终没有去好好看看Google的三驾马车,现在回校学习,好好的看看论文,同时也自己做做笔记,记录一下自己的学习过程。MapReduce作为Google的曾经三驾马车之一,广为大家所知,但是很多人都只知道他能做一些数据处理的工作,并不清楚他其中的原理。这次就让我们来总结一下MapReduce的原理,进行学习。问题描述我是一个新闻客户端的负责人,我有一个一大堆的访问日志,原创 2017-09-12 11:42:01 · 679 阅读 · 0 评论 -
Avro 多reocrds(multi-records)
需求描述最近有一个需求,要在同一个filed下放下可选的数据,需要用到Avro的Union和多个record。。但是在网上搜索的时候并没有找到好的解决方案。。。解决方案好吧,不多说,直接上代码,如果有avro基础就能看懂不同的record{"type": "record", "name": "Ethernet", "fie原创 2018-01-12 15:53:48 · 432 阅读 · 0 评论