- 博客(5)
- 收藏
- 关注
原创 大数据存储框架的更新和删除操作
在数据量非常大的情况下,进行更新和删除是非常耗时的,需要加载数据修改再写出,类似于hbase和kudu,hive支持更新和删除操作,了解下实现原理,也为相似业务场景提供思路HBase:在执行删除的时候,会插入一条删除数据,标记为delete,和时间戳,查询到时候如果标记删除并且最新,确认删除更新的时候也插入跟新的数据,会有个新的时间戳,读取的时候读最新的时间数据这样有个问题就是数据会不断增...
2019-11-12 15:27:09
517
1
原创 对分布式存储和并行计算的一点思考
分布式存储:首先是文件在HDFS上面以128M块大小存储(3份),这三块是在不同节点的(机架感知),我觉的好处是容错还有当计算是这个节点资源不够可以去块所在的另一节点执行,不用拉取数据。可以通过fs.getfileblocklocation()获取块位置并行计算:1、MR使用默认的输入格式,一个块就是一个切片,切片数就是并行度,就是MapTask个数,所有数据块同时计算,reduceTas...
2018-12-30 16:40:35
1020
原创 关于面试中的HashMap
底层结构:哈希表JDK7:数组+链表、Entry[ ]、table直接初始化容量为16JDK8:数组+链表+红黑树、Node[ ]、table没有初始化,在第一次添加元素时才初始化特点:1、允许null键null值。2、不保证键的顺序hashmap线程不安全,可以使用JUC包中的ConcurrentHashMap解决添加元素过程:创建HashTable对象时,table数组没有初始...
2018-12-23 18:27:24
163
原创 大数据存储基石HDFS
这篇文章主要介绍HDFS的概述、读写流程,常用的shell操作以及一些HDFS 2.X的新特性HDFS(Hadoop distributed file system),通过目录树来定位文件,文件实际以块分布式存在各个节点优点:通过副本容错,在廉价机上存储海量数据。缺点:不能高效存储小文件(1、占用大量NameNode内存。2、寻址时间会超过读取时间),一个文件不允许多线程写入,数据只能追加不...
2018-12-23 17:26:29
251
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人