
Hadoop
hyy_blue
这个作者很懒,什么都没留下…
展开
-
opentsdb在Hbase的存储结构
1、opentsdb介绍opentsdb是基于Hbase的分布式、可伸缩的时间序列数据库。主要用途:就是做监控系统提供最高毫秒级精度的时间序列数据存储,能够长久保存原始数据并且不失精度提供很强的写入能力,支持大并发的数据写入。opentsdb 的简介就不过多的介绍。2、OpenTSDB存储相关的概念在opentsdb中存储的结构是以下面的结构写入的:{ "metric": "单位的名字", "timestamp": db.TIME, "value":原创 2020-11-09 15:02:11 · 1843 阅读 · 2 评论 -
Hadoop-提高性能(调优)方法
1. 通过combiner来减少网络的流量Combiner可以减少在map和reduce阶段之间的数据量,较低的数据传输量可以较好的较少运行时间。2 减少输入数据量这个有点牵强,但是对于有某些分布特征的数据来说可以通过采样的方式进行输入数据缩减。对于某些分析应用而言,这是一个可行的选择,抽样降低到的是精度,而不是准确性。3使用压缩即使在map和reduce之间使用了Combiner,在m...原创 2019-06-14 08:39:42 · 2631 阅读 · 0 评论 -
Hadoop中Join+BloomFilter实现链接不同来源的数据
转自https://qindongliang.iteye.com/blog/2057266。散仙,在上篇文章中了,测了使用半链接的方式,来实现的表join,注意中间存储小表的key,是用HashSet实现的,也就是把数据存在内存里,在map侧,进行key过滤后,然后再Reduce侧,实现join,但如果数据量非常大的情况下,HashSet来存放海量的key可能就会出现OOM的情况,这时候,我们就...转载 2019-06-14 19:08:46 · 1717 阅读 · 0 评论 -
删减DataNode(decommissioning)与增加DataNode
删减DataNode(decommissioning)有时你想讲Hadoop集群中的某个节点进行升级或者删除。当然你可以杀死节点从而让从集群剥离,但是非常不建议这么做,HDFS的设计非常有弹性的,让一两个节点离线不会影响操作的正常进行。NameNode会检测到节点的死亡,并开始复制那些低于预定的副本数的数据块,为了让操作更加的顺畅和安全,特别是删除大批DataNode时,应该使用Hadoop的退...原创 2019-06-16 20:29:39 · 2177 阅读 · 0 评论 -
Hadoop-感知网络布局和机架的设计
转发https://blog.youkuaiyun.com/haboop/article/details/897864221.数据分块HDFS作为Hadoop中的一个分布式文件系统,而且是专门为它的 MapReduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为MapReduce提供高效的读写性能,那么HDFS是如何做到这些的呢?首先,HDFS将每一个文件的数据进行分块存储...转载 2019-06-16 20:48:05 · 1416 阅读 · 0 评论