- 博客(23)
- 收藏
- 关注
原创 ChatBI 之 SuperSonic 初尝试
SuperSonic的核心理念是通过将物理数据模型抽象为逻辑语义模型,并确保语义的一致性、严谨性,从而支持用户通过 Chat 对话的方式进行数据查询。NLP > SQL,错误率太高。而 SuperSonic 采用的是:NLP > 一致语义层 > SQL的方式,将数据语义(如业务术语、列值等)纳入提示词中,使 LLM 能够更好地理解语义,以减少幻觉,这也是市面上大多数类似产品的通用思路。
2025-03-20 14:47:18
1272
1
原创 Flink 流批一体之批处理进行数据同步
经过对Flink批处理功能测试,结果符合预期, 但目前有的 connector 只支持 insert into的方式,不支持覆写,所以在尝试多次回刷数据之前,必须得清理分区数据,否则会重复。
2025-02-24 11:11:22
550
原创 SQL高级技巧之埋点解析
大数据时代,数据来源主要是以及,其中 ,用户行为日志的形式主要是,埋点的形式通常是Json格式的字符串,属于半结构化数据,如何将其规范化并入仓?后续如何方便使用?这就需要数仓工作者深思熟虑。
2025-02-17 11:55:45
728
原创 SQL高级技巧:高效获取两表交集数据的三种方法(JOIN、IN、EXISTS)
特性/方法JOININEXISTS适用场景多表关联查询,需要合并数据简单的存在性检查,子查询结果集不大存在性检查,尤其适合大数据集性能中等,取决于连接条件和索引差,特别是在子查询结果集较大时好,尤其是大数据集时语法复杂度中等简单中等灵活性高,支持多种连接类型低,主要用于等值比较高,支持复杂条件。
2025-02-05 15:46:04
857
原创 终于有人讲明白SQL中Filter与Where子句的差别了
小样本:二者皆可大样本:Filter 灵活性高,适合一次性计算多列;只计算单列的话使用Where。
2025-01-22 11:57:36
443
原创 用户画像分享
用户画像分析是通过挖掘用户的自然属性、社会属性和行为属性,识别用户兴趣点并分析群体特征的过程。它是刻画用户个体或群体全方位特征的重要手段,为运营分析人员提供用户偏好和行为信息,从而优化运营策略,并为产品设计提供准确的用户角色信息。目前业界常使用的用户画像概念有2种,一种是 User persona,一种 User portrait,也有翻译为User profile。
2024-11-01 16:16:24
1506
原创 DtataWorks spark报错:Parse exception - full qualified name ‘xxx.`default`.tablename‘ is not supported
在平台上开发spark任务时,选择版本,Python language,配置如下:历史记录都是成功的,但是在2024-08-28在 MaxCompute 上升级存储之后就突然报错,而我升级的目的其实是想通过创建外部schema 来进行联邦查询,具体可见。
2024-09-03 15:37:51
634
原创 数仓之TABLESAMPLE采样
在日常工作中,我们会对表中记录随机抽样然后探查,如何进行抽样就是本章要讲的重点。数仓中的抽样方法有很多,这里主要介绍一下:随机抽样、块抽样、桶抽样、分组抽样这四种,话不多说,直接上干货。
2024-08-27 17:09:53
1558
原创 终于有人把DataWorks中数据质量、智能监控、数据推送说清楚了
总结一下,监控 表级/字段级完整性准确性有效性一致性唯一性和及时性等数据质量并且能够及时阻止脏数据进入下游选择DQC;监控具体任务资源运行状况选择智能监控,选择个性化推送某些轻量数据的选择数据推送。
2024-08-23 17:09:06
1346
原创 DataWorks 离线同步数据至 Kafka 实操
以上就是完整的操作步骤,相信大家感受到实际操作非常简单便捷,阿里云生态建设的很完善,这极大地减轻了开发压力,有任何疑问欢迎大家在评论区留言。
2024-08-21 12:10:30
706
原创 Dataworks离线同步MaxCompute数据至Hologres案例
创作者激励计划需要计算用户收益。目前,由开发人员在测试环境中使用假数据进行测试,数仓中完成计算并通过消息或接口反馈结果。为了解决这些问题,我们组内沟通后决定尝试将数据同步至Hologres中。这样开发人员可以直接读表,Hologres作为 HSAP 数据库,不仅支持分析和线上服务,其性能也优于 MySQL。
2024-08-20 17:00:22
735
原创 MaxCompute 中 Filter 与 Where 之间的差异
通过对比这两个SQL查询的执行计划,我们可以清楚地看到WHERE和FILTER子句在数据处理流程中的不同之处:WHERE子句:在数据聚合之前执行,用于过滤原始数据行。它在聚合操作之前就将不符合条件的数据行排除掉。FILTER子句:在数据聚合之后执行,用于过滤聚合结果。它在聚合操作之后根据条件对聚合结果进行筛选。理解这两者的执行顺序和作用,对于编写高效的SQL查询至关重要。在实际应用中,选择合适的过滤方式可以显著提高查询性能和结果的准确性。
2024-08-20 12:50:46
577
原创 Hive 绝技:求解最大连续快充次数问题
随着电动汽车的普及,越来越多的用户开始使用电动汽车。为了更好地了解用户的充电行为,我们需要对充电记录进行分析。假设我们有一张记录电瓶车充电记录的表,其中包含了用户ID、充电时间和充电类型(快充或慢充)。通过分析这些数据,我们可以了解用户的充电习惯,从而优化充电站的布局和服务。uid10011000100110011011101110101011在这张表中,uid表示用户ID,表示充电时间,表示充电类型(1表示快充,0表示慢充)。现在我们需要计算每个用户连续快充的最大次数。
2024-08-16 16:19:12
724
原创 Flink 之 TopN 以及窗口TopN
在Flink中,TopN计算是指从数据流中选取前N个元素,通常根据某个指标进行排序。TopN计算可以在全局范围内进行,也可以在窗口内进行。窗口TopN计算是指在特定的时间窗口或计数窗口内进行TopN计算。这些操作在实时数据分析、监控和推荐系统中非常常见。
2024-08-13 16:48:41
566
原创 Flink 之 级联窗口计算
在 Flink 中,级联窗口是指多个窗口之间存在包含或重叠关系的数据处理模式。它允许我们在不同的时间范围内对数据进行聚合和分析。简单来说,就是将数据流分割成多个时间段(窗口)来处理,这些窗口可以是嵌套的,也可以是重叠的。想象一下,我们有一个实时数据流,包含用户的点击数据。我们可能希望在不同的时间粒度上进行分析,比如每分钟、每小时和每天的点击量统计。级联窗口允许我们同时进行这些不同时间粒度的统计,而不需要多次遍历数据,这样可以复用中间计算结果,避免重复消费数据。
2024-08-09 11:28:35
952
原创 Flink 之 滚动窗口/滑动窗口/会话窗口/OVER窗口
数据处理方式流式计算:数据是连续不断地到达的,OVER窗口函数会在数据流中实时地计算窗口结果。每当新数据到达时,窗口计算会实时更新。批计算:数据是一次性读取并处理的,OVER窗口函数会在整个数据集上一次性计算窗口结果。所有数据都读取完毕后,窗口计算才会开始。计算延迟流式计算:适用于需要低延迟、实时更新的场景。计算结果会随着数据的到达实时更新。批计算:适用于数据量较大、对计算延迟要求不高的场景。计算结果在所有数据读取完毕后一次性计算。状态管理流式计算:需要持续管理状态,因为数据是不断到达的。
2024-08-05 18:09:11
2963
1
原创 Flink 时间属性及 WATERMARK 水印
水位线的生成是一个基于事件时间的机制,主要目的是处理乱序数据,确保窗口计算的准确性。通过设定一个最大延迟时间,水位线可以有效地处理乱序事件,并在适当的时间点触发窗口计算。
2024-08-03 01:36:20
1368
原创 Hive 复杂数据类型之 STRUCT/MAP/JSON
在 Hive 中,除了常见的基本数据类型(如 INT、STRING、FLOAT 等),还支持一些特殊的数据类型,如 STRUCT、MAP 和 JSON,这些数据类型允许处理更复杂和嵌套的数据结构。
2024-08-02 00:27:30
776
原创 SQL实战之行列互转
以上就是3种行转列的方法,还有一种是生成 struct 结构的方式,在次我就不赘述了,实用性当然是第1种方便了,其他2种可以适当装个13。以上就是我介绍的2种列转行方式,建议大家使用第1种方式,主打一个快捷省事。
2024-07-09 20:04:59
3283
2
原创 FlinkSQL Regular Join之 Left Join
基本同样的代码,离线计算数据结果皆一致,但是流式Join中差距为何如此大,我的看法是V1中进行left join的主从表本质虽然是一张源表,但都是在筛选之后才进行的关联,筛选条件完全不同,就相当于生成2张完全不一样的临时表,左表是驱动表。
2024-07-08 22:47:23
1438
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人