
大数据
文章平均质量分 78
Tattoo_Welkin
Just do it !!!
展开
-
Flink 状态管理与容错
文章目录有状态计算使用外部存储会存在的问题?自己实现中间状态存储会存在的问题?以及如何解决?状态类型与应用状态应用场景有状态计算使用外部存储会存在的问题?频繁的网络 IO算子中间会存在 Blocking,资源利用率下降自己实现中间状态存储会存在的问题?以及如何解决?系统宕机,中间状态数据的丢失内存或者磁盘大小有限数据一致性解决:每隔一段时间刷新到磁盘或者外部存储介质上。状态类型与应用状态应用场景去重窗口计算的中间结果的存储机器学习,深度学习等历史数据获取原创 2022-04-25 00:46:24 · 290 阅读 · 0 评论 -
常考海量数据面试题
文章目录海量大数据处理面试题和思路总结10 道关于海量数据的面试题(附题解+方法总结)海量数据面试题总结原创 2022-04-17 23:05:19 · 286 阅读 · 0 评论 -
Flink 常考面试题
这里写目录标题WaterMark 的理解exactly-once 的保证state 有几种状态参考WaterMark 的理解exactly-once 的保证state 有几种状态参考Flink面试题原创 2022-04-10 09:12:47 · 2518 阅读 · 0 评论 -
Flink 基本使用与公司级别使用经验总结
文章目录介绍流计算与批计算特性基本流程与程序写法JokeyBy 的使用一些注意事项介绍Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。流计算与批计算特性���������������������������基本流程与程序写法JokeyBy 的使用一些注意事项...原创 2022-03-20 11:19:03 · 2456 阅读 · 0 评论 -
ES 搜索与写入的实现原理
这里写目录标题ES 的分布式架构ES 写入数据的原理ES 搜索数据的原理ES 的使用场景ES 入门ES 的分布式架构ES 写入数据的原理客户端选择一个 node 发送请求过去,这个 node 就是 coordinating node (协调节点)coordinating node,对 document 进行路由,将请求转发给对应的 node实际上的 node 上的 primary shard 处理请求,然后将数据同步到 replica nodecoordinating node,如果发现原创 2022-03-07 13:18:47 · 774 阅读 · 0 评论 -
ES 入门
文章目录基本概念(1)索引、文档、REST API文档索引Type与关系型数据库的类比REST API ----很容易被各种语言调用(2)节点、集群、分片及副本节点---就是指集群下的一个节点分片---其实就是倒排索引分词分词器ES中内置的分词器使用 _analyzer Api默认分词器 Standard Analyzer 和 Keyword Analyzer搜索搜索API检索term 查询:单个精确值查找(term query),包含:范围查询,前缀查询。对输入不会做分词处理。全文搜索:会对输入的查询进原创 2022-02-16 20:41:59 · 2269 阅读 · 0 评论 -
HBase入门笔记
文章目录概述特性适用场景不适用场景HBase 和 HDFS面向行和面向列HBase的数据模型1111111概述HBase是分布式、面向列族的开源数据库,HDFS为HBase提供可靠的底层数据存储服务,MapReduce为HBase提供高性能的计算能力,Zookeeper为HBase提供稳定服务和Failover机制,可以说,HBase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。特性底层存储依赖于 HDFS面向列适用场景HBase 适用于海量数据存储和准实原创 2022-02-10 16:30:30 · 1930 阅读 · 0 评论