缓存
zhuiqiuuuu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ehcache的使用指南
### Maven 依赖 net.sf.ehcache ehcache 2.10.0 com.googlecode.ehcache-spring-annotations ehcache-spring-annotations 1.1.2 ### ehcache.xml转载 2015-07-29 15:55:23 · 784 阅读 · 0 评论 -
spark中cache和persist的区别,rdd缓存源码解析
一、cache和persist的区别昨天面试被问到了cache和persist区别,当时只记得是其中一个调用了另一个,但没有回答出二者的不同,所以回来后重新看了源码,算是弄清楚它们的区别了。cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。cache和persist的区别基于Spark 1.4.1 的源码,可以看到/** ...转载 2018-02-08 10:31:38 · 637 阅读 · 0 评论 -
spark cache (几种缓存方法)
例如有一张hive表叫做activity。cache表,数据放内存,数据被广播到Executor,broadcast,将数据由reduce side join 变map side join。效果都是查不多的,基本表达的都是一个意思。具体效果体现:读数据次数变小;df(dataframe)执行过一次就已经有值,不用重新执行前方获取df的过程。将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分...转载 2018-02-08 15:28:10 · 42424 阅读 · 4 评论 -
spark 数据倾斜
一. 数据倾斜的现象1、spark中一个stage的执行时间受限于最后那个执行完的task,因此运行缓慢的任务会拖累整个程序的运行速度(分布式程序运行的速度是由最慢的那个task决定的)比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 2、原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈...转载 2018-02-08 16:48:38 · 1077 阅读 · 0 评论 -
缓存之缓存穿透、缓存击穿、缓存雪崩
目录概述一、缓存处理流程二、缓存穿透三、缓存击穿四、缓存雪崩概述什么样的数据适合缓存?分析一个数据是否适合缓存,我们要从访问频率、读写比例、数据一致性等要求去分析.一、缓存处理流程前台请求,后台先从缓存中取数据,取到直接返回结果,取不到时从数据库中取,数据库取到更新缓存,并返回结果,数据库也没取到,那直接返回空结果。...转载 2019-04-24 09:49:16 · 323 阅读 · 0 评论 -
海量数据判重——布隆过滤器(Bloom filter)与Bitmap对比
布隆过滤器关于布隆过滤器(Bloom filter)的介绍部分,大多翻译自Wikipedia简介布隆过滤器(Bloom filter)是一个高空间利用率的概率性数据结构,由Burton Bloom于1970年提出。被用于测试一个元素是否在集合中(由于集合无重复元素的性质,可用来判重)。可在数据量大到传统无错误散列(hash)方法需要使用的内存量是不可满足时使用,传统无错散列方法可以消除...转载 2019-04-24 10:04:06 · 4478 阅读 · 0 评论
分享