mengml_smile-优快云博客

原创大数据生态Sql引擎

跨源、跨库关联查询(Hive、Mysql、Flink、Spark、Es、MongoDb)

2025-11-14 17:40:49 191

原创常见系统设计

Key分片：将热点商品的库存拆分为多个Key（如item_stock_1, item_stock_2），分散访问压力。本地缓存+延迟双删：在服务节点本地缓存库存数据，结合延迟删除策略减少Redis访问。缓存预热：在秒杀开始前将库存数据加载到Redis并禁止直接访问DB。扣库存成功 → 发送消息到MQ → 订单服务消费并生成预订单。支付服务异步回调确认，更新订单状态并扣减数据库库存。

2025-06-11 11:45:07 328

原创 Ranger一分钟

https://ranger.apache.org/https://ranger.apache.org/apidocs/ui/index.html

2025-04-01 17:16:57 361

原创数据一致性一分钟

如何保证Mysql数据库到ES的数据一致性

2024-12-19 17:22:57 283

原创 Sentinel一分钟

热点参数：限流会统计传入参数中的热点参数，并根据配置的限流阈值与模式，对包含热点参数的资源调用进行限流。资源：我们代码中的 Java 方法,一段代码，或者一个接口。统计一段时间内发生策略事件之后熔断一段时间恢复。吞吐量：指系统在单位时间内处理请求的数量。

2024-12-15 21:03:40 381

原创结算一分钟

计费：计算费用，一句话概括就是：根据不同的计费规则，计算一笔订单/交易中，不同参与角色应该分配多少利益（主要为钱），简单说就是一个怎么分蛋糕的事情，起到承上启下的作用。结算：结算平台与计费系统作为清结算体系中重要的组成部分，计费平台把订单的业务信息流转变成转化为资金信息流，结算平台把资金信息流转化成实实在在的结算资金流。

2024-12-14 21:05:13 503

原创 Elasticsearch一分钟

FST有穷状态转换器/咆哮位图/增量缩紧Es技术难点

2024-12-09 15:52:49 372

原创类加载一分钟

如果一个类加载器收到了加载类的请求，它会先把请求委托给上层加载器去完成，上层加载器又会委托上上层加载器，一直到最顶层的类加载器；如果上层加载器无法完成类的加载工作时，当前类加载器才会尝试自己去加载这个类。

2024-12-03 10:26:55 263

原创 Redis大Key一分钟

一般来说，如果一个键值对占用的内存超过了合理范围（比如，String类型的value超过1MB，复合类型如List、Hash、Set、Sorted Set等的value包含的元素数量过多），我们就可以认为它是一个大Key。由于大Key会占用大量的内存空间，当Redis需要处理这些大Key时，可能会变得非常耗时，导致主线程被阻塞，无法及时处理其他客户端的请求。

2024-12-03 09:22:54 473

ProtoBuf是一种高效的序列化协议，相比XML或JSON等文本格式，它能更紧凑、更快地序列化和反序列化数据，从而减少网络传输的负担和提高性能。HTTP/2作为传输层：gRPC基于HTTP/2协议，利用其多路复用、头部压缩等特性，可以更高效地管理多个并发的请求和响应，减少网络延迟并提高连接的利用率。多语言支持：gRPC几乎支持所有主流编程语言，包括C++、Java、Python、Go、Ruby、C#、Node.js等，便于构建多语言微服务架构。支持身份验证机制，增强服务安全性。

2024-12-02 10:05:00 663

原创网络协议一分钟

主要原因是为了保证客户端发送那个的第一个ACK报文能到到服务器，因为这个ACK报文可能丢失，并且2MSL是任何报文在网络上存在的最长时间，超过这个时间报文将被丢弃，这样新的连接中不会出现旧连接的请求报文。进行三次握手的目的是为了确认双方的接收能力和发送能力是否正常。

2024-12-01 17:38:40 422

原创 Hive难点

在使用Hive进行大数据处理时，数据倾斜是一个常见的问题，它会导致计算资源的不均匀使用，从而影响整个作业的执行效率。数据倾斜通常发生在MapReduce计算框架的Map端和Reduce端，尤其是在Reduce阶段更为常见。数据倾斜的直观表现是任务进度长时间停留在99%，而实际上只有少数任务在运行，这些任务处理的数据量远大于其他任务。

2024-12-01 09:23:59 490

原创 HBase难点

查询优化一次Scan会返回大量数据，客户端向HBase发送一次Scan请求，实际上并不会将所有数据加载到本地，而是通过多次RPC请求进行加载，防止客户端OOM。禁止缓存优化：批量读取数据时会全表扫描一次业务表，这种提现在Scan操作场景。在Scan时，客户端与RegionServer进行数据交互(RegionServer的实际数据时存储在HDFS上)，将数据加载到缓存，如果加载很大的数据到缓存时，会对缓存中的实时业务热数据有影响，由于缓存大小有限，加载的数据量过大，会将这些热数据“挤压”出去，这样当其

2024-12-01 09:19:43 638

原创分布式事务

BASE理论(Basically Available Soft state Eventually consistent)：即使无法做到强一致性，但每个应用都可以根据自身业务特点，采用适当的方式来使系统达到最终一致性。这个定理的内容是指：在一个分布式系统中、Consistency(一致性)、Availability(可用性)、Partitiontolerance(分区容错性)，三者不可得兼。SAGA需要用前端组建绘制编排图之后生成json在服务中使用。AT模式(常用)需要客户端有undo_log表。

2024-11-19 17:32:25 478

原创缓存cache

Java开发利器Guava Cache之使用篇

2024-11-15 17:23:09 561

原创服务监控告警看板

promethus+alertmanager：Prometheus 是一个非常强大的监控系统，它不仅能够收集和存储时间序列数据，还能通过 Alertmanager 提供灵活的报警机制。Histogram和Sumamry区别：不同在于Histogram可以通过histogram_quantile函数在服务器端计算分位数。因此对于分位数的计算。Summary在通过PromQL进行查询时有更好的性能表现，而Histogram则会消耗更多的资源。相对的对于客户端而言Histogram消耗的资源更少。

2024-11-08 12:22:50 476

原创主流OLAP对比

Druid 和 Kylin，一般会根据用户定义的数据维度、度量（也可以叫指标）在数据写入时生成预聚合数据；Query查询到来时，实际上查询的是预聚合的数据而不是原始明细数据，在查询模式相对固定的场景中，这种优化提速很明显。Kylin依赖hadoop：hive，hbase，kafka等。Druid支持hadoop和s3等存储。

2024-11-06 16:01:00 531

原创向量数据库

向量空间模型（Vector Space Model, VSM）：向量空间模型的核心思想是将文本数据转化为多维空间中的点，通过点之间的距离或夹角来衡量相似性。

2024-11-05 18:39:53 235

原创 Paimon一分钟

Merge Engines :数据merge方式。基于hdfs或者s3等云存储。

2024-10-12 16:22:52 557

原创大数据ETL

用来描述将数据从来源端经过萃取（extract）、转置（transform）、加载（load）至目的端的过程。

2024-07-25 17:43:11 244

原创 AI数智助手

NL2Sql AI数智助手

2024-03-19 11:36:28 1110 1

原创埋点平台一分钟

数据采集实战：商品详情页数据埋点

2023-12-04 17:43:01 418

原创 CDC（Change Data Capture）一分钟

推荐一款比Flink CDC更好用的免费CDC工具

2023-11-27 19:19:59 278

原创实时标签引擎一分钟

数据中台实战：以圆猿买手为案例谈如何从0到1搭建实时标签引擎

2023-11-27 19:18:49 563

原创推荐系统一分钟

基于标签的推荐系统必须要解决的4个核心问题

2023-11-27 17:54:30 245

原创 AI大模型

收集数据->数据清洗(去重、null值处理等)->数据划分(训练、验证、参数调整等数据划分)->模型选择->模型训练(GPU加速等)->模型评估(测试数据集测试准确度、召回率等)->模型部署(flask转换为api、docker)

2023-11-22 19:36:00 498

原创指标管理系统

参考

2023-11-20 15:00:36 290

原创树形数据存储

聊聊mysql的树形结构存储及查询

2023-11-10 17:26:38 117

原创数据仓库一分钟

直接点讲，就是大部分（80%以上）的需求，都用DWS的表来支持就行，DWS支持不了的，就用DWM和DWD的表来支持，这些都支持不了的极少一部分数据需要从原始日志中捞取。在实际计算中，如果直接从DWD或者ODS计算出宽表的统计指标，会存在计算量太大并且维度太少的问题，因此一般的做法是，在DWM层先计算出多个小的中间表，然后再拼接成一张DWS的宽表。“面向主题的”数据运营层，也叫ODS层，是最接近数据源中数据的一层，数据源中的数据，经过抽取、洗净、传输，也就说传说中的 ETL 之后，装入本层。

2023-08-21 11:39:20 1189

原创 Trino一分钟

Trino主要是由Client、Coordinator、Worker以及Connector来构成。

2023-08-18 18:10:39 247

原创 JVM监控-Arthas、Mat

快捷生成命令。

2023-08-03 19:45:14 686 1

原创元数据系统

数据血缘落地实践

2023-07-07 14:44:15 105

原创 Doris一分钟

官网

2023-07-04 19:08:19 235

原创实时数仓Flink+Iceberg

参考

2023-07-03 16:00:46 184

原创 Hive一分钟

对于外部表，删除表格时，仅删除元数据(meta data)。因为会有多人操作数据仓库，可能会产生数据表误删除操作，为了数据安全性，通常会使用外部表。对于内部表，删除表格时，删除元数据（meta data）和存储数据，即表格，以及对应表格的数据文件。1.分区表是将大的表文件划分成多个小文件以利于查询，但是如果数据分布不均衡，也会影响查询效率。3.物理上，每个桶就是表和分区目录里的一个文件，一个作业产生桶和Reduce任务个数据相同。2.桶表可以对数据进行哈希取模，目的是让数据能够均匀的分布在表的各个文件中。

2023-07-03 11:39:25 585

mac 本机安装单机版k8s

空空如也