- 博客(123)
- 收藏
- 关注
原创 Ranger一分钟
https://ranger.apache.org/https://ranger.apache.org/apidocs/ui/index.html
2025-04-01 17:16:57
252
原创 Sentinel一分钟
热点参数:限流会统计传入参数中的热点参数,并根据配置的限流阈值与模式,对包含热点参数的资源调用进行限流。资源:我们代码中的 Java 方法,一段代码,或者一个接口。统计一段时间内发生策略事件之后熔断一段时间恢复。吞吐量:指系统在单位时间内处理请求的数量。
2024-12-15 21:03:40
326
原创 结算一分钟
计费:计算费用,一句话概括就是:根据不同的计费规则,计算一笔订单/交易中,不同参与角色应该分配多少利益(主要为钱),简单说就是一个怎么分蛋糕的事情,起到承上启下的作用。结算:结算平台与计费系统作为清结算体系中重要的组成部分,计费平台把订单的业务信息流转变成转化为资金信息流,结算平台把资金信息流转化成实实在在的结算资金流。
2024-12-14 21:05:13
412
原创 类加载一分钟
如果一个类加载器收到了加载类的请求,它会先把请求委托给上层加载器去完成,上层加载器又会委托上上层加载器,一直到最顶层的类加载器;如果上层加载器无法完成类的加载工作时,当前类加载器才会尝试自己去加载这个类。
2024-12-03 10:26:55
213
原创 Redis大Key一分钟
一般来说,如果一个键值对占用的内存超过了合理范围(比如,String类型的value超过1MB,复合类型如List、Hash、Set、Sorted Set等的value包含的元素数量过多),我们就可以认为它是一个大Key。由于大Key会占用大量的内存空间,当Redis需要处理这些大Key时,可能会变得非常耗时,导致主线程被阻塞,无法及时处理其他客户端的请求。
2024-12-03 09:22:54
387
原创 RPC一分钟
ProtoBuf是一种高效的序列化协议,相比XML或JSON等文本格式,它能更紧凑、更快地序列化和反序列化数据,从而减少网络传输的负担和提高性能。HTTP/2作为传输层:gRPC基于HTTP/2协议,利用其多路复用、头部压缩等特性,可以更高效地管理多个并发的请求和响应,减少网络延迟并提高连接的利用率。多语言支持:gRPC几乎支持所有主流编程语言,包括C++、Java、Python、Go、Ruby、C#、Node.js等,便于构建多语言微服务架构。支持身份验证机制,增强服务安全性。
2024-12-02 10:05:00
626
原创 网络协议一分钟
主要原因是为了保证客户端发送那个的第一个ACK报文能到到服务器,因为这个ACK报文可能丢失,并且2MSL是任何报文在网络上存在的最长时间,超过这个时间报文将被丢弃,这样新的连接中不会出现旧连接的请求报文。进行三次握手的目的是为了确认双方的接收能力和发送能力是否正常。
2024-12-01 17:38:40
366
原创 Hive难点
在使用Hive进行大数据处理时,数据倾斜是一个常见的问题,它会导致计算资源的不均匀使用,从而影响整个作业的执行效率。数据倾斜通常发生在MapReduce计算框架的Map端和Reduce端,尤其是在Reduce阶段更为常见。数据倾斜的直观表现是任务进度长时间停留在99%,而实际上只有少数任务在运行,这些任务处理的数据量远大于其他任务。
2024-12-01 09:23:59
446
原创 HBase难点
查询优化一次Scan会返回大量数据,客户端向HBase发送一次Scan请求,实际上并不会将所有数据加载到本地,而是通过多次RPC请求进行加载,防止客户端OOM。禁止缓存优化:批量读取数据时会全表扫描一次业务表,这种提现在Scan操作场景。在Scan时,客户端与RegionServer进行数据交互(RegionServer的实际数据时存储在HDFS上),将数据加载到缓存,如果加载很大的数据到缓存时,会对缓存中的实时业务热数据有影响,由于缓存大小有限,加载的数据量过大,会将这些热数据“挤压”出去,这样当其
2024-12-01 09:19:43
543
原创 分布式事务
BASE理论(Basically Available Soft state Eventually consistent):即使无法做到强一致性,但每个应用都可以根据自身业务特点,采用适当的方式来使系统达到最终一致性。这个定理的内容是指:在一个分布式系统中、Consistency(一致性)、Availability(可用性)、Partitiontolerance(分区容错性),三者不可得兼。SAGA需要用前端组建绘制编排图之后生成json在服务中使用。AT模式(常用)需要客户端有undo_log表。
2024-11-19 17:32:25
411
原创 服务监控告警看板
promethus+alertmanager:Prometheus 是一个非常强大的监控系统,它不仅能够收集和存储时间序列数据,还能通过 Alertmanager 提供灵活的报警机制。Histogram和Sumamry区别:不同在于Histogram可以通过histogram_quantile函数在服务器端计算分位数。因此对于分位数的计算。Summary在通过PromQL进行查询时有更好的性能表现,而Histogram则会消耗更多的资源。相对的对于客户端而言Histogram消耗的资源更少。
2024-11-08 12:22:50
405
原创 主流OLAP对比
Druid 和 Kylin,一般会根据用户定义的数据维度、度量(也可以叫指标)在数据写入时生成预聚合数据;Query查询到来时,实际上查询的是预聚合的数据而不是原始明细数据,在查询模式相对固定的场景中,这种优化提速很明显。Kylin依赖hadoop:hive,hbase,kafka等。Druid支持hadoop和s3等存储。
2024-11-06 16:01:00
433
原创 向量数据库
向量空间模型(Vector Space Model, VSM):向量空间模型的核心思想是将文本数据转化为多维空间中的点,通过点之间的距离或夹角来衡量相似性。
2024-11-05 18:39:53
174
原创 AI大模型
收集数据->数据清洗(去重、null值处理等)->数据划分(训练、验证、参数调整等数据划分)->模型选择->模型训练(GPU加速等)->模型评估(测试数据集测试准确度、召回率等)->模型部署(flask转换为api、docker)
2023-11-22 19:36:00
454
原创 数据仓库一分钟
直接点讲,就是大部分(80%以上)的需求,都用DWS的表来支持就行,DWS支持不了的,就用DWM和DWD的表来支持,这些都支持不了的极少一部分数据需要从原始日志中捞取。在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。“面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。
2023-08-21 11:39:20
1121
原创 Hive一分钟
对于外部表,删除表格时,仅删除元数据(meta data)。因为会有多人操作数据仓库,可能会产生数据表误删除操作,为了数据安全性,通常会使用外部表。对于内部表,删除表格时,删除元数据(meta data)和存储数据,即表格,以及对应表格的数据文件。1.分区表是将大的表文件划分成多个小文件以利于查询,但是如果数据分布不均衡,也会影响查询效率。3.物理上,每个桶就是表和分区目录里的一个文件,一个作业产生桶和Reduce任务个数据相同。2.桶表可以对数据进行哈希取模,目的是让数据能够均匀的分布在表的各个文件中。
2023-07-03 11:39:25
558
原创 Atlas
Apache 开源 元数据产品支持从 HBase 、Hive、Sqoop、Storm、Kafka 中提取和管理元数据。运行原理Atlas 的原理其实并不难理解,主要是通过内部提供的脚本读取数仓中的数据库结构,生成数据模型,存储到 Atlas的 Hbase 中,同时通过 hook 的方式监听数仓中的数据变化,分析执行的 sql 语句,从而生成表与表,列与列的血缘关系依赖,在前台展示给用户查看。
2023-06-21 18:15:10
123
原创 Spark
高效性 基于内存 Spark 比 MapReduce 快100倍易用性 函数式编程 代码体积小通用性 用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX兼容性 Spark可以读取多种数据源,如HDFS、HBase、MySQL基本概念。
2023-06-15 19:36:45
713
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人