中郎将-优快云博客

原创大数据存储框架的更新和删除操作

在数据量非常大的情况下，进行更新和删除是非常耗时的，需要加载数据修改再写出，类似于hbase和kudu，hive支持更新和删除操作，了解下实现原理，也为相似业务场景提供思路 HBase：在执行删除的时候，会插入一条删除数据，标记为delete，和时间戳，查询到时候如果标记删除并且最新，确认删除更新的时候也插入跟新的数据，会有个新的时间戳，读取的时候读最新的时间数据这样有个问题就是数据会不断增...

2019-11-12 15:27:09 556 1

原创可以ping通，xshell连不上

检查虚拟机的IP是否和本机IP一样

2019-11-01 22:48:13 3340

原创对分布式存储和并行计算的一点思考

分布式存储：首先是文件在HDFS上面以128M块大小存储（3份），这三块是在不同节点的（机架感知），我觉的好处是容错还有当计算是这个节点资源不够可以去块所在的另一节点执行，不用拉取数据。可以通过fs.getfileblocklocation()获取块位置并行计算： 1、MR使用默认的输入格式，一个块就是一个切片，切片数就是并行度，就是MapTask个数，所有数据块同时计算，reduceTas...

2018-12-30 16:40:35 1071

原创关于面试中的HashMap

底层结构：哈希表 JDK7：数组+链表、Entry[ ]、table直接初始化容量为16 JDK8：数组+链表+红黑树、Node[ ]、table没有初始化，在第一次添加元素时才初始化特点： 1、允许null键null值。2、不保证键的顺序 hashmap线程不安全，可以使用JUC包中的ConcurrentHashMap解决添加元素过程：创建HashTable对象时，table数组没有初始...

2018-12-23 18:27:24 188

原创大数据存储基石HDFS

这篇文章主要介绍HDFS的概述、读写流程，常用的shell操作以及一些HDFS 2.X的新特性 HDFS(Hadoop distributed file system)，通过目录树来定位文件，文件实际以块分布式存在各个节点优点：通过副本容错，在廉价机上存储海量数据。缺点：不能高效存储小文件（1、占用大量NameNode内存。2、寻址时间会超过读取时间），一个文件不允许多线程写入，数据只能追加不...

2018-12-23 17:26:29 278 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大数据存储框架的更新和删除操作

原创 可以ping通，xshell连不上

原创 对分布式存储和并行计算的一点思考

原创 关于面试中的HashMap

原创 大数据存储基石HDFS

空空如也

空空如也

原创大数据存储框架的更新和删除操作

原创可以ping通，xshell连不上

原创对分布式存储和并行计算的一点思考

原创关于面试中的HashMap

原创大数据存储基石HDFS