clever_dogg-优快云博客

原创 setunnel mysql --＞doris (实时采集)

4. 取消任务（取消的作业所有断点信息将被删除，并且无法通过 seatunnel.sh -r < jobId >恢复）3. 暂停同步任务（会保留chickpoint）-n 或 --name 参数可以指定作业的名称。3.connectors 目录下添加，--async 参数可以让作业在后台运行。2.lib 目录下添加 mysql驱动。5. 恢复任务（从检查点处恢复任务）三.seatunnel 配置文件模板。一.seatunnel 安装部署。二.seatunnel 操作命令。1. 首次后台运行任务。

2025-01-10 10:49:41 1071

原创 Maven 中央仓库地址

http://www.sonatype.org/nexus/ http://mvnrepository.com/ （推荐仓库） http://repo1.maven.org/maven2

2024-06-17 12:19:03 403 1

原创 Hive 数仓开发过程涉及基础知识点

3. **优化**：Tez 优化了MapReduce的一些瓶颈，特别是对于需要多次迭代的作业，如Hive查询中的多个JOIN和GROUP BY操作，通过减少读写HDFS的次数来提高速度。2. **内存计算**：Spark 的核心优势在于其内存计算能力，能够缓存数据，减少磁盘I/O，对于迭代计算和数据重用的场景表现出色，这使得它在处理复杂的查询和大规模数据时比Tez更快。2. **资源管理**：Tez 集成了YARN作为资源管理器，能够更细粒度地管理资源，支持DAG作业的执行，使得数据处理管道更加高效。

2024-05-28 15:30:14 292

原创可用在线智能

https://chat.xing-yun.cn/#/chatxhttps://www.yeschat.ai/yeschathttps://inscode.youkuaiyun.com/@weixin_64616164/Python_01/edithttps://xinghuo.xfyun.cn/deskhttps://tongyi.aliyun.com/qianwen/?sessionId=f7fc1464876c4f7b8a15f9b93a4b3d06

2024-05-24 13:07:54 500 1

原创吃透五个字““接”、“存”、“管”、“算”、“查”“ - 玩转大数据

1. 分层结构:数据仓库常采用星型模型、雪花模型或事实星座模型，并遵循一定的分层原则，如ODS（Operational Data Store）、DW（Data Warehouse）、DM（Data Mart）等，以便于管理和访问。2.转换（Transform）：清洗、转换数据，包括数据格式标准化、缺失值处理、异常值检测、数据类型转换、数据脱敏等，确保数据质量及一致性。3.多维分析（OLAP）：支持对数据进行多角度、多层次的切片、钻取、旋转等操作，便于用户探索数据、发现模式。

2024-04-24 16:17:35 276 4

原创实时数据开发 - 百分百会遇到的问题

业务上要尽量避免热点 key 的设计，例如我们可以把上海、北京等热点城市与非热点城市划分成不同的区域，并进行单独处理；Flink 消费 Kafka 的数据时，是推荐消费并行度为Kafka分区数的1倍或者整数倍的，即 Flink Consumer 的并行度 = Kafka 的分区数 * n （n = 1, 2 ,3 ...）。如果是采用FlinkSQL的方式，则可以将FlinkSQL 嵌套成两层，里层通过随机打散若干份（如100）的方式降低数据热点，（这个打散的方式可以根据业务灵活指定）。

2024-04-01 16:57:48 394 1

原创数据开发之-kafka 的使用场景

对于 kafka 的 topic，我们在创建之初可以设置多个 partition 来存放数据，对于同一个 topic 的数据，每条数据的 key 通过哈希取模被路由到不同的 partition 中（如果没有设置 key，则根据消息本身取模），以此达到分治的目的。同步提交：提交失败的时候一直尝试提交，直到遇到无法重试的情况下才会结束，同步方式下消费者线程在拉取消息会被阻塞，在 broker 对提交的请求做出响应之前，会一直阻塞直到偏移量提交操作成功或者在提交过程中发生异常，限制了消息的吞吐量。

2024-04-01 15:48:48 1847 1

原创从零到一搭建数仓项目是一项系统工程，涉及数据源整合、数据模型设计、ETL流程构建、数据仓库实施、数据质量管理、系统运维与优化等多个环节。以下是详细展开的整个流程、设计步骤和技术实现方法：

使用ETL工具（如Informatica、Alteryx、AWS Glue、Azure Data Factory）编写ETL脚本或配置作业。- 使用ETL工具（如Informatica、Alteryx、AWS Glue、Azure Data Factory）实现数据抽取与转换。- 设计维度表，包括自然键、代理键、层级、属性等，如客户维度表包含客户ID、客户名、地区等信息。- 设计数据字典模板，包括数据表名、字段名、数据类型、数据来源、更新频率等字段。

2024-03-25 09:49:28 903