- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 setunnel mysql -->doris (实时采集)
4. 取消任务(取消的作业所有断点信息将被删除,并且无法通过 seatunnel.sh -r < jobId >恢复)3. 暂停同步任务(会保留chickpoint)-n 或 --name 参数可以指定作业的名称。3.connectors 目录下 添加,--async 参数可以让作业在后台运行。2.lib 目录下添加 mysql驱动。5. 恢复任务(从检查点处恢复任务)三.seatunnel 配置文件模板。一.seatunnel 安装部署。二.seatunnel 操作命令。1. 首次后台运行任务。
2025-01-10 10:49:41
1071
原创 Maven 中央仓库地址
http://www.sonatype.org/nexus/ http://mvnrepository.com/ (推荐仓库) http://repo1.maven.org/maven2
2024-06-17 12:19:03
403
1
原创 Hive 数仓开发过程涉及基础知识点
3. **优化**:Tez 优化了MapReduce的一些瓶颈,特别是对于需要多次迭代的作业,如Hive查询中的多个JOIN和GROUP BY操作,通过减少读写HDFS的次数来提高速度。2. **内存计算**:Spark 的核心优势在于其内存计算能力,能够缓存数据,减少磁盘I/O,对于迭代计算和数据重用的场景表现出色,这使得它在处理复杂的查询和大规模数据时比Tez更快。2. **资源管理**:Tez 集成了YARN作为资源管理器,能够更细粒度地管理资源,支持DAG作业的执行,使得数据处理管道更加高效。
2024-05-28 15:30:14
292
原创 可用在线智能
https://chat.xing-yun.cn/#/chatxhttps://www.yeschat.ai/yeschathttps://inscode.youkuaiyun.com/@weixin_64616164/Python_01/edithttps://xinghuo.xfyun.cn/deskhttps://tongyi.aliyun.com/qianwen/?sessionId=f7fc1464876c4f7b8a15f9b93a4b3d06
2024-05-24 13:07:54
500
1
原创 吃透五个字““接”、“存”、“管”、“算”、“查”“ - 玩转大数据
1. 分层结构:数据仓库常采用星型模型、雪花模型或事实星座模型,并遵循一定的分层原则,如ODS(Operational Data Store)、DW(Data Warehouse)、DM(Data Mart)等,以便于管理和访问。2.转换(Transform):清洗、转换数据,包括数据格式标准化、缺失值处理、异常值检测、数据类型转换、数据脱敏等,确保数据质量及一致性。3.多维分析(OLAP):支持对数据进行多角度、多层次的切片、钻取、旋转等操作,便于用户探索数据、发现模式。
2024-04-24 16:17:35
276
4
原创 实时数据开发 - 百分百会遇到的问题
业务上要尽量避免热点 key 的设计,例如我们可以把上海、北京等热点城市与非热点城市划分成不同的区域,并进行单独处理;Flink 消费 Kafka 的数据时,是推荐消费并行度为Kafka分区数的1倍或者整数倍的 ,即 Flink Consumer 的并行度 = Kafka 的分区数 * n (n = 1, 2 ,3 ...)。如果是采用FlinkSQL的方式,则可以将FlinkSQL 嵌套成两层,里层通过随机打散 若干份(如100)的方式降低数据热点,(这个打散的方式可以根据业务灵活指定)。
2024-04-01 16:57:48
394
1
原创 数据开发之-kafka 的使用场景
对于 kafka 的 topic,我们在创建之初可以设置多个 partition 来存放数据,对于同一个 topic 的数据,每条数据的 key 通过哈希取模被路由到不同的 partition 中(如果没有设置 key,则根据消息本身取模),以此达到分治的目的。同步提交:提交失败的时候一直尝试提交,直到遇到无法重试的情况下才会结束,同步方式下消费者线程在拉取消息会被阻塞,在 broker 对提交的请求做出响应之前,会一直阻塞直到偏移量提交操作成功或者在提交过程中发生异常,限制了消息的吞吐量。
2024-04-01 15:48:48
1847
1
原创 从零到一搭建数仓项目是一项系统工程,涉及数据源整合、数据模型设计、ETL流程构建、数据仓库实施、数据质量管理、系统运维与优化等多个环节。以下是详细展开的整个流程、设计步骤和技术实现方法:
使用ETL工具(如Informatica、Alteryx、AWS Glue、Azure Data Factory)编写ETL脚本或配置作业。- 使用ETL工具(如Informatica、Alteryx、AWS Glue、Azure Data Factory)实现数据抽取与转换。- 设计维度表,包括自然键、代理键、层级、属性等,如客户维度表包含客户ID、客户名、地区等信息。- 设计数据字典模板,包括数据表名、字段名、数据类型、数据来源、更新频率等字段。
2024-03-25 09:49:28
903
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人