自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Zookeeper CAP原则

在大型网站应用中,数据规模总是快速扩张的,因此可伸缩性即分区容忍性必不可少,规模变大以 后,机器数量也会变得庞大,这是网络和服务器故障会频繁出现,要想保证应用可用,就必须保证 分布式处理系统的高可用性。如果要求两个操作之间要完整的进行,因为涉及到通信,肯定存在某一个时刻只完成一部分的业务 操作,在通信完成的这一段时间内,数据就是不一致性的。如果要求对数据进行分区了,就说明了必须节点之间必须进行通信,涉及到通信,就无法确保在有限的时间内完成指定的任务。关注的是在在一个事务内,对数据的一些约束。

2024-10-28 17:16:57 727

原创 Hbas 三层索引

HBase以前内部维护了两张特殊的表, -ROOT-,.META表,用来查询各种表的Hregion位置,这两张特殊的表也会像Hbase中的其他三个表一样切分成多个Hregion,-ROOT-表比.META.更特殊一些,永远不会被切分超过一个Hregion 这样保证了只需要三次跳转就可以定位到任意的HRgion。

2024-10-23 22:31:54 520

原创 Spark通用执行流程

Spark执行流程

2024-10-21 23:15:46 494

spark-3.3.2-bin-hadoop3.tgz

Apache Spark 是专门为大规模数据处理而设计的快速通用的计算引擎。 Spark 诞生自加州大学伯克利分校的 AMP (AMP:Algorithms,Machines,and People) 实验室,是一种类似 Hadoop MapReduce 的通用并行计算框架,它拥有 Hadoop MapReduce 所具有的优点,但不同于 MapReduce 的是 Job 的中间输出结果可以缓存在内存中,从而不再需要 读写 HDFS ,减少磁盘数据交互,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的算法。 Spark 也被称为 基于内存的分布式计算框架.

2024-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除