- 博客(17)
- 收藏
- 关注
原创 部署DeepSeek
VLLM 本地部署 DeepSeek-R1 671B FP8_ray vllm deepseek671多机部署教程-优快云博客
2025-02-27 11:17:20
138
转载 【Flink】 Upsert 乱序问题
业务中,偶尔会接到某订单数据无法在 es 中查询,经添加日志排查,发现,某个订单维表数据发生变更,最后 -D 事件和 +I 事件发生了乱序,在进入 es 时,先执行了 +I 事件,再执行了 -D 事件,于是,es 数据丢失。否则,就说明发生了乱序。另外,我们在写 sql 时,要关注 join key ,尽量优化 sql,让它以 upsert key 做 shuffle,减少出现多重乱序的 join sql,来减少数据异常。数据更新时,在某些情况下,如关联的表够多,并行度够大,可能会有概率出现数据乱序问题。
2023-09-21 15:56:27
245
转载 【转载】探索Apache Hudi核心概念 (2) - File Sizing
在本系列的文章中,我们通过探索了COW表和MOR表的文件布局,在数据的持续写入与更新过程中,Hudi严格控制着文件的大小,以确保它们始终处于合理的区间范围内,从而避免大量小文件的出现,Hudi的这部分机制就称作“File Sizing”。本文,我们就针对COW表和MOR表的File Sizing进行一次深度探索。,转载请注明出处!
2023-09-11 16:23:48
101
转载 【转载】探索Apache Hudi核心概念 (1) - File Layouts
项目名称项目地址Notebook的运行环境使用的是Amazon EMR Studio(一种面向Amazon EMR的托管Notebook环境),如果您没有AWS账号,可以自行修改Notebook适配到任何支持Spark Kernel的Notebook环境中。Notebook还使用了一个公共数据集:Amazon Customer Reviews,它是Amazon购物网站上的用户评价数据,总体积50GB,存放在S3上,地址:s3://amazon-reviews-pds1。
2023-09-11 16:16:29
57
原创 【hive】SQL之连续登录
在日常工作进行数据的ETL或者面试时,经常遇到类似的问题,比如"统计连续N天交易额超过100万的店铺"、"统计连续登录天数超过3天的用户"等。对于这类问题,思路基本都是一样的。本文将介绍常用的两种解决方案。如何是连续的应该和需要是一样的,如果有跳变(断层)说明不是连续。以"统计连续登录天数超过3天的用户"为需求。
2023-09-09 16:47:04
487
原创 【flink】自定义flink-socket-connector
用户自定义 Sources & Sinks概述实心箭头展示了在转换过程中对象如何从一个阶段到下一个阶段转换为其他对象。元数据Table API 和 SQL 都是声明式 API。这包括表的声明。因此,执行 CREATE TABLE 语句会导致目标 catalog 中的元数据更新。对于大多数 catalog 实现,外部系统中的物理数据不会针对此类操作进行修改。特定于连接器的依赖项不必存在于类路径中。在 WITH 子句中声明的选项既不被验证也不被解释。动态表的元数据( 通过 DDL 创建或由
2023-09-09 16:02:33
399
原创 【hive】sql求解topN
2023-07-07-15,2023-07-15 00:00:00,102325,223.116.97.23,中国,北京。
2023-09-09 15:29:33
116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人