
大数据
文章平均质量分 72
樱桃小丸犊子_q
这个作者很懒,什么都没留下…
展开
-
Hbase操作文档
作者:张佳琪。原创 2024-03-18 11:17:02 · 214 阅读 · 0 评论 -
端到端的一致性
Sink端最复杂,数据离开Flink之后Flink就监控不到了,因此外部存储系统需要支持允许提交和回滚的写入操作,同时还要保证与Flink Checkpoint能够协调使用。Kafka作为Source,将偏移量保存下来,如果任务出现故障,可以根据偏移量重新消费数据,保证一致性。利用Checkpoint机制,将状态保存下来,发生故障的时候可以恢复,保证内部状态的一致性。如果Sink端是Kafka,可以使用Kafka的事实性保证Sink端的一致性。原创 2022-10-21 16:06:01 · 217 阅读 · 0 评论 -
kafka总结
Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。消息的发布者不会将消息发给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息。、一个consumer group中有多个consumer组成,一个 topic有多个partition组成,现在的问题是,到底由哪个consumer来消费哪个partition的数据。可以通过配置参数partition.assignment.strategy,修改分区的分配策略。Range 是对每原创 2022-06-24 22:49:46 · 298 阅读 · 0 评论 -
Spark-Core总结
一、Spark概述1.Spark 是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2.Spark and MapReduceSpark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘。可称MapReduce为一次性数据集计算主要利用磁盘交互,磁盘IO非常影响性能Spark会将数据中间结果保存到Memory如果部署共享集群,可能造成资源不足的问题,对其它任务产生影响(不适合和H原创 2022-05-20 23:47:06 · 277 阅读 · 0 评论 -
Spark和IO
执行原理RDD和IO都采用装饰者设计模式IO实现原理Reader in = new BufferedReader( new InputStreamReader( new FileInputStream("path"), "UTF-8" ))String s = nullwhile ( (s = in.readLine()) != null ) { println(i);}字节流转换字符流,需要套一个InputStream原创 2022-05-20 23:42:00 · 239 阅读 · 0 评论 -
ElasticSearch总结
一、索引简单来说:正向索引是通过key找value,反向索引则是通过value找key1、正向索引是什么以ID为主键,通过ID快速检索到对应的数据或者信息优缺点优点:新增数据时,直接存储到数据库中并按照lD创建索引删除数据时,直接删除数据即可,然后将ID对应的索引移除。综上所述:数据的新增和删除与其他行的数据关联很小缺点:针对于非主健的列进行查询,效率比较低,比如说一些模糊查询 like %yjx%2、反向索引(也叫倒排索引)是什么以字或者词为主键,然后记录这个字词出现在的文档以及文档的原创 2022-04-28 11:43:00 · 1483 阅读 · 0 评论 -
redis总结
redis是什么Redis(Remote Dictionary Server) 是一个使用 C 语言编写的,开源的(BSD许可)高性能非关系型(NoSQL)的键值对数据库。他是一个非关系型数据库,他走的是内存,而关系型数据库,他的约束比较强,走的是磁盘,当有大量数据涌入的时候,效率比较慢,可以会出现IO阻塞。还有就是用户第一次访问数据库中的某些数据。这个过程会比较慢,因为是从硬盘上读取的。将该用户访问的数据存在数缓存中,这样下一次再访问这些数据的时候就可以直接从缓存中获取了。直接操作缓存能够承受的请原创 2022-03-31 13:43:58 · 1479 阅读 · 0 评论 -
Session一致性
什么是session我们都知道,http协议是无状态协议,session会话的出现是对这个无状态做一个补充。它是以键值对存储在服务器里,cookie从客户端返回服务器是会带着session的ID,一般会将用户的基本信息缓存在session中为什么存在session一致性问题Web1.0的时代,数据访问量很有限,用的高性能的单节点服务器可以解决大部分问题在Web2.0时代,由于用户访问量大幅度提升,同时产生了大量的用户数据,所以我们采用分布式架构,我们使用ngnix反向代理服务器,把访问量均衡分配到原创 2022-03-30 19:55:13 · 1509 阅读 · 0 评论