自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(123)
  • 收藏
  • 关注

原创 Ranger一分钟

https://ranger.apache.org/https://ranger.apache.org/apidocs/ui/index.html

2025-04-01 17:16:57 252

原创 数据一致性一分钟

如何保证Mysql数据库到ES的数据一致性

2024-12-19 17:22:57 226

原创 Sentinel一分钟

热点参数:限流会统计传入参数中的热点参数,并根据配置的限流阈值与模式,对包含热点参数的资源调用进行限流。资源:我们代码中的 Java 方法,一段代码,或者一个接口。统计一段时间内发生策略事件之后熔断一段时间恢复。吞吐量:指系统在单位时间内处理请求的数量。

2024-12-15 21:03:40 326

原创 结算一分钟

计费:计算费用,一句话概括就是:根据不同的计费规则,计算一笔订单/交易中,不同参与角色应该分配多少利益(主要为钱),简单说就是一个怎么分蛋糕的事情,起到承上启下的作用。结算:结算平台与计费系统作为清结算体系中重要的组成部分,计费平台把订单的业务信息流转变成转化为资金信息流,结算平台把资金信息流转化成实实在在的结算资金流。

2024-12-14 21:05:13 412

原创 Elasticsearch一分钟

FST有穷状态转换器/咆哮位图/增量缩紧Es技术难点

2024-12-09 15:52:49 321

原创 类加载一分钟

如果一个类加载器收到了加载类的请求,它会先把请求委托给上层加载器去完成,上层加载器又会委托上上层加载器,一直到最顶层的类加载器;如果上层加载器无法完成类的加载工作时,当前类加载器才会尝试自己去加载这个类。

2024-12-03 10:26:55 213

原创 Redis大Key一分钟

一般来说,如果一个键值对占用的内存超过了合理范围(比如,String类型的value超过1MB,复合类型如List、Hash、Set、Sorted Set等的value包含的元素数量过多),我们就可以认为它是一个大Key。由于大Key会占用大量的内存空间,当Redis需要处理这些大Key时,可能会变得非常耗时,导致主线程被阻塞,无法及时处理其他客户端的请求。

2024-12-03 09:22:54 387

原创 RPC一分钟

ProtoBuf是一种高效的序列化协议,相比XML或JSON等文本格式,它能更紧凑、更快地序列化和反序列化数据,从而减少网络传输的负担和提高性能。HTTP/2作为传输层:gRPC基于HTTP/2协议,利用其多路复用、头部压缩等特性,可以更高效地管理多个并发的请求和响应,减少网络延迟并提高连接的利用率。多语言支持:gRPC几乎支持所有主流编程语言,包括C++、Java、Python、Go、Ruby、C#、Node.js等,便于构建多语言微服务架构。支持身份验证机制,增强服务安全性。

2024-12-02 10:05:00 626

原创 网络协议一分钟

主要原因是为了保证客户端发送那个的第一个ACK报文能到到服务器,因为这个ACK报文可能丢失,并且2MSL是任何报文在网络上存在的最长时间,超过这个时间报文将被丢弃,这样新的连接中不会出现旧连接的请求报文。进行三次握手的目的是为了确认双方的接收能力和发送能力是否正常。

2024-12-01 17:38:40 366

原创 Hive难点

在使用Hive进行大数据处理时,数据倾斜是一个常见的问题,它会导致计算资源的不均匀使用,从而影响整个作业的执行效率。数据倾斜通常发生在MapReduce计算框架的Map端和Reduce端,尤其是在Reduce阶段更为常见。数据倾斜的直观表现是任务进度长时间停留在99%,而实际上只有少数任务在运行,这些任务处理的数据量远大于其他任务。

2024-12-01 09:23:59 446

原创 HBase难点

查询优化一次Scan会返回大量数据,客户端向HBase发送一次Scan请求,实际上并不会将所有数据加载到本地,而是通过多次RPC请求进行加载,防止客户端OOM。禁止缓存优化:批量读取数据时会全表扫描一次业务表,这种提现在Scan操作场景。在Scan时,客户端与RegionServer进行数据交互(RegionServer的实际数据时存储在HDFS上),将数据加载到缓存,如果加载很大的数据到缓存时,会对缓存中的实时业务热数据有影响,由于缓存大小有限,加载的数据量过大,会将这些热数据“挤压”出去,这样当其

2024-12-01 09:19:43 543

原创 分布式事务

BASE理论(Basically Available Soft state Eventually consistent):即使无法做到强一致性,但每个应用都可以根据自身业务特点,采用适当的方式来使系统达到最终一致性。这个定理的内容是指:在一个分布式系统中、Consistency(一致性)、Availability(可用性)、Partitiontolerance(分区容错性),三者不可得兼。SAGA需要用前端组建绘制编排图之后生成json在服务中使用。AT模式(常用)需要客户端有undo_log表。

2024-11-19 17:32:25 411

原创 缓存cache

Java开发利器Guava Cache之使用篇

2024-11-15 17:23:09 534

原创 服务监控告警看板

promethus+alertmanager:Prometheus 是一个非常强大的监控系统,它不仅能够收集和存储时间序列数据,还能通过 Alertmanager 提供灵活的报警机制。Histogram和Sumamry区别:不同在于Histogram可以通过histogram_quantile函数在服务器端计算分位数。因此对于分位数的计算。Summary在通过PromQL进行查询时有更好的性能表现,而Histogram则会消耗更多的资源。相对的对于客户端而言Histogram消耗的资源更少。

2024-11-08 12:22:50 405

原创 主流OLAP对比

Druid 和 Kylin,一般会根据用户定义的数据维度、度量(也可以叫指标)在数据写入时生成预聚合数据;Query查询到来时,实际上查询的是预聚合的数据而不是原始明细数据,在查询模式相对固定的场景中,这种优化提速很明显。Kylin依赖hadoop:hive,hbase,kafka等。Druid支持hadoop和s3等存储。

2024-11-06 16:01:00 433

原创 向量数据库

向量空间模型(Vector Space Model, VSM):向量空间模型的核心思想是将文本数据转化为多维空间中的点,通过点之间的距离或夹角来衡量相似性。

2024-11-05 18:39:53 174

原创 Paimon一分钟

Merge Engines :数据merge方式。基于hdfs或者s3等云存储。

2024-10-12 16:22:52 293

原创 大数据ETL

用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。

2024-07-25 17:43:11 218

原创 AI数智助手

NL2Sql AI数智助手

2024-03-19 11:36:28 1017 1

原创 埋点平台一分钟

数据采集实战:商品详情页数据埋点

2023-12-04 17:43:01 321

原创 CDC(Change Data Capture)一分钟

推荐一款比Flink CDC更好用的免费CDC工具

2023-11-27 19:19:59 233

原创 实时标签引擎一分钟

数据中台实战:以圆猿买手为案例谈如何从0到1搭建实时标签引擎

2023-11-27 19:18:49 499

原创 推荐系统一分钟

基于标签的推荐系统必须要解决的4个核心问题

2023-11-27 17:54:30 224

原创 AI大模型

收集数据->数据清洗(去重、null值处理等)->数据划分(训练、验证、参数调整等数据划分)->模型选择->模型训练(GPU加速等)->模型评估(测试数据集测试准确度、召回率等)->模型部署(flask转换为api、docker)

2023-11-22 19:36:00 454

原创 指标管理系统

参考

2023-11-20 15:00:36 244

原创 树形数据存储

聊聊mysql的树形结构存储及查询

2023-11-10 17:26:38 92

原创 数据仓库一分钟

直接点讲,就是大部分(80%以上)的需求,都用DWS的表来支持就行,DWS支持不了的,就用DWM和DWD的表来支持,这些都支持不了的极少一部分数据需要从原始日志中捞取。在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。“面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。

2023-08-21 11:39:20 1121

原创 Trino一分钟

Trino主要是由Client、Coordinator、Worker以及Connector来构成。

2023-08-18 18:10:39 192

原创 JVM监控-Arthas、Mat

快捷生成命令。

2023-08-03 19:45:14 490

原创 元数据系统

数据血缘落地实践

2023-07-07 14:44:15 77

原创 Doris一分钟

官网

2023-07-04 19:08:19 207

原创 实时数仓Flink+Iceberg

参考

2023-07-03 16:00:46 160

原创 Hive一分钟

对于外部表,删除表格时,仅删除元数据(meta data)。因为会有多人操作数据仓库,可能会产生数据表误删除操作,为了数据安全性,通常会使用外部表。对于内部表,删除表格时,删除元数据(meta data)和存储数据,即表格,以及对应表格的数据文件。1.分区表是将大的表文件划分成多个小文件以利于查询,但是如果数据分布不均衡,也会影响查询效率。3.物理上,每个桶就是表和分区目录里的一个文件,一个作业产生桶和Reduce任务个数据相同。2.桶表可以对数据进行哈希取模,目的是让数据能够均匀的分布在表的各个文件中。

2023-07-03 11:39:25 558

原创 动态线程池管理

参考

2023-06-26 09:24:12 131

原创 Atlas

Apache 开源 元数据产品支持从 HBase 、Hive、Sqoop、Storm、Kafka 中提取和管理元数据。运行原理Atlas 的原理其实并不难理解,主要是通过内部提供的脚本读取数仓中的数据库结构,生成数据模型,存储到 Atlas的 Hbase 中,同时通过 hook 的方式监听数仓中的数据变化,分析执行的 sql 语句,从而生成表与表,列与列的血缘关系依赖,在前台展示给用户查看。

2023-06-21 18:15:10 123

原创 DolphinScheduler

去中心化设计 通过zk选举。

2023-06-19 18:25:14 596

原创 Flink

1.批处理2.批核流混合处理(批处理是离线等待总数据后处理,流处理为不间断流式处理)3.纯流处理(默认开启cpu核心数的线程)

2023-06-16 17:30:16 115

原创 Spark

高效性 基于内存 Spark 比 MapReduce 快100倍易用性 函数式编程 代码体积小通用性 用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX兼容性 Spark可以读取多种数据源,如HDFS、HBase、MySQL基本概念。

2023-06-15 19:36:45 713

原创 分布式系统的补偿回滚设计

参考

2023-06-15 12:48:07 109

原创 mq保证消息顺序

https://mp.weixin.qq.com/s/XotYb00zXI7AsKe_ysDZUw

2023-06-02 11:58:44 121

mac 本机安装单机版k8s

mac 本机安装单机版k8s

2023-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除