大数据
文章平均质量分 90
atbigapp.com
www.atbigapp.com,专业开发者合作平台。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从 0 到 1 构建湖仓体系, Apache Doris 湖仓一体解决方案全面解读
此外,Doris 的物化视图采用高性能存储格式,通过列存、压缩和智能索引技术,提供高效的数据访问能力,能够作为数据缓存的替代方案,提升查询效率。同时,Iceberg、Hudi、Delta Lake 等开放表格式发挥关键作用,它们不仅支持数据的近实时更新、高效的快照管理,还兼容 SQL 标准,使得数据既可以像传统数据库表一样进行事务性操作,又能充分利用数据湖的分布式存储与弹性计算优势,实现数据在数据湖与数据仓库场景间的无缝切换,为实时数据处理与历史数据分析提供统一的数据基础。原创 2025-07-08 15:35:47 · 1359 阅读 · 0 评论 -
Paimon在各大公司生产实践和优化总结
《Paimon在各大企业的落地实践与技术优势》摘要:本文总结了Apache Paimon在Vivo、Shopee、阿里、抖音等企业的应用实践。Paimon作为新一代数据湖框架,主要解决了传统Lambda架构的时效性不足(从小时级提升至分钟级)和实时链路成本高的问题。核心应用场景包括:1)统一ODS层存储,替代Hive+Kafka双链路;2)维度表LookupJoin;3)宽表场景的PartialUpdate;4)PV/UV实时计算(蚂蚁案例显示CPU降低60%);5)湖上OLAP分析。其LSM树架构和ACI原创 2025-06-24 10:46:44 · 1160 阅读 · 0 评论 -
Paimon生产环境问题小总结
本文总结了使用Apache Paimon过程中遇到的常见问题及解决方案,主要涉及小文件处理、性能优化、内存管理等方面。针对小文件问题,建议调整Checkpoint间隔、WriteBuffer大小和合理设置Bucketkey;性能优化可通过并行度设置、本地合并和文件编码选择实现;内存不足需增加堆内存或优化分桶策略。文章还介绍了快照冲突处理、维度表关联优化、文件读取异常等问题的解决方法,并指出新版本引入的DeletionVectors在平衡写入和查询性能方面的优势。这些经验总结来自生产实践和社区讨论,后续将持续原创 2025-06-16 14:32:07 · 1287 阅读 · 0 评论 -
Apache SeaTunnel MCP Server:让AI成为你的ETL助手
ApacheSeaTunnelMCPServer 通过MCP协议为AI编程工具(如Cursor、VSCode)提供SeaTunnel接口文档,实现智能交互。它允许开发者通过自然语言指令完成作业提交、监控、日志解析等操作,并能自动生成配置文件和运维报告。配置简单,只需Python环境和SeaTunnel 2.3.9+版本即可使用,支持RESTful API调用。典型应用场景包括:一键提交作业、实时监控运行状态、智能分析日志等。该项目持续迭代中,欢迎开发者参与贡献。原创 2025-06-13 15:52:44 · 659 阅读 · 0 评论 -
基于AI大模型的数据治理体系
本文探讨了大模型时代下的数据治理挑战与解决方案。大模型(如DeepSeek、GPT等)依赖海量数据和计算资源,但面临数据质量、安全、成本等问题。数据治理需从战略、管控、技术等多维度构建体系,并利用AI大模型实现智能化治理,包括数据标准管理、元数据挖掘、质量监控及安全防护。未来,智能化、区块链和边缘计算将进一步提升数据治理效率与安全性。原创 2025-06-06 14:37:54 · 1258 阅读 · 0 评论 -
数据仓库架构演进:为什么99%的企业还在用Hive?
本文探讨了数据仓库架构从混沌到有序的演进历程,重点分析了分层架构(ODS/CDM/ADS)的核心价值与技术实现。对比了Hive与Doris在实时查询、存储格式等方面的优劣,以及云原生架构的降本增效能力。针对实时与离线协同场景,剖析了Lambda/Kappa架构的局限性及混合架构解决方案。最后展望AI驱动治理与数据资产化趋势,涵盖智能质检、联邦学习等创新实践。原创 2025-06-06 14:24:50 · 711 阅读 · 0 评论 -
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南
Apache Doris湖仓一体方案深度解析:三大核心场景实践 本文聚焦Apache Doris湖仓一体方案在三大典型场景的最佳实践: 湖仓分析加速:通过本地磁盘缓存(SSD介质)和物化视图透明改写技术,查询性能提升93倍; 多源联邦分析:支持动态创建Catalog连接Hive/Iceberg/MySQL等数据源,实现跨源SQL关联查询; 湖仓数据处理:提供定时任务调度、分层加工(DWD/DWS)和数据写回功能,形成数据处理闭环。 方案采用统一SQL引擎,实现数据无界访问,降低架构复杂度,显著提升企业数据处原创 2025-06-05 15:30:16 · 852 阅读 · 0 评论 -
计算效率提升 10 倍,存储成本降低 60%,灵犀科技基于 Apache Doris 建设统一数据服务平台
在数据存储方面也进行了类似的划分,从而实现数据生产与业务应用的同时兼顾,提高了数据管理的可控性,降低了运维复杂度。•实时处理链路:在实时数据处理流程中,数据通过爬虫的方式写入 Kafka,Flink 读取 Kafka 的信息并根据系统下发在 Redis 的数据处理规则,完成数据的处理并最终写入 TiDB,提供实时的数据查询服务。•流量控制:针对常规的任务处理,控制整体的应用并发,合理利用闲时时间进行的数据的生产工作,确保能够在高峰期保持系统的高性能,同时在低峰期最大化资源的使用,提高了整体系统的生产效率。原创 2025-05-27 15:29:09 · 1052 阅读 · 0 评论 -
元模型开发工具怎么选?元模型VS数据模型
本文探讨了元模型开发工具的选择、应用受限原因及规范制定。主要开源工具有OpenMetadata(一体化数据治理)、DataHub(丰富连接器)和ApacheAtlas(大数据治理),选择需综合功能、易用性等要素。元模型应用受限源于三方面:知识体系庞杂、技术复杂度高和人才短缺。元模型规范需定义术语(如类、属性)、结构(命名规则等)和约束条件。元模型与数据模型的关系是抽象与具体实现的区别,前者定义结构,后者实现存储。组织需持续维护元模型规范以确保其有效性。原创 2025-05-26 14:25:01 · 873 阅读 · 0 评论 -
数据boy有福了,Java体系AI框架SpringAI来袭!
SpringAI是一个为Java开发者设计的AI框架,旨在将生成式人工智能技术引入Java生态系统。它借鉴了Python项目LangChain和LlamaIndex的理念,但并非直接移植,而是专注于为Java平台提供模型管理、推理和扩展功能,并与Spring生态无缝整合。SpringAI简化了构建复杂AI应用的过程,支持本地和远程模型的加载与卸载,提供统一的接口调用AI模型进行推理,并允许开发者自定义模型和扩展功能。通过引入SpringAI,Java开发者可以更便捷地开发AI应用,如聊天模型和MCP服务,从原创 2025-05-19 14:38:42 · 451 阅读 · 0 评论 -
从 Spark 到 StarRocks:实现58同城湖仓一体架构的高效转型
58集团的数据探查平台是一个统一的SQL开发平台,旨在提供便捷的SQL编写、调试和执行环境,每天处理超过10万条SQL查询。为了提升查询性能,特别是即席查询(Ad-Hoc)的响应速度,平台引入了StarRocks引擎。StarRocks以其统一的数据湖分析能力、MPP框架和向量化执行引擎,显著提升了查询性能,平均查询时间从分钟级降至秒级。在迁移过程中,团队解决了StarRocks与Spark在语法解析、元数据绑定、查询优化和执行阶段的不兼容问题,确保了迁移过程对用户透明。此外,团队还优化了StarRocks原创 2025-05-16 15:14:25 · 1162 阅读 · 0 评论 -
京东物流基于Flink & StarRocks的湖仓建设实践
今天,将分享的主题大纲包括:首先,从京东物流的湖仓建设出发,探讨其整体思路与建设过程;其次,介绍京东物流实时湖仓的应用,以及实时团队在场景和业务支持方面的实践;第三,对遇到的问题进行思考;最后,讲解一下团队的下一步规划与未来展望。原创 2025-05-14 14:28:30 · 740 阅读 · 0 评论 -
Apache Paimon大厂面试题必备-进阶篇
因此,Paimon的时效性受快照文件产生频率的影响,而在Flink作业没有反压的情况下,产生快照文件的时间间隔等同于Flink作业创建检查点的时间间隔(checkpoint interval)。例如,在数据一致性要求较高的场景下,能够确保在删除过期快照相关文件后,系统状态是稳定的,不会出现旧文件还没删除完就进行新操作而导致数据混乱的情况。例如,在高并发的数据处理场景下,即使有大量的过期快照需要处理,也不会影响新数据的写入、查询等操作,系统可以并行处理这些任务,提高整体的处理效率。原创 2025-04-23 14:39:57 · 1424 阅读 · 0 评论 -
数据治理方法论和实践小百科全书
数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。从范围来讲,数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。从目的来讲,数据治理就是要对数据的获取、处理和使用进行监督管理。原创 2025-04-23 14:32:43 · 1702 阅读 · 0 评论 -
如何识别元数据:一张图玩转元数据相关概念
元数据(Metadata)是“数据的数据”,就是描述某个数据本身特征的数据。一般包括技术属性、业务属性和管理属性。(进一步阅读了解什么是元数据:元数据管理:组织数据资产的“导航仪”与“说明书”)我们用一张图,让大家了解元数据的相关概念,这样更清晰的理解各个概念在数据治理项目中的角色。原创 2025-04-22 16:20:42 · 1583 阅读 · 0 评论 -
Apache Paimon大厂面试必备系列-基础篇
本文部分参考了Paimon官网、社区、网络分享的内容,内容较长难免有笔误,大家可自行对比官网纠错。Apache Paimon是一种流批统一的数据湖存储格式,结合Flink及Spark构建流批处理的实时湖仓一体架构。Paimon创新地将湖格式与LSM技术结合起来,给数据湖带来了实时流更新以及完整的流处理能力:实时入湖:Paimon支持包括MySQL在内的多种数据库系统的实时变化同步写入,在千万级数据规模下也能保持高效率与低延迟。湖上流批一体处理:Paimon结合Flink提供了完整的流处理能力,结合Spark原创 2025-04-22 11:53:58 · 1202 阅读 · 0 评论 -
从 Spark 到 StarRocks:实现58同城湖仓一体架构的高效转型
在使用 StarRocks 的过程中,我们从实践中总结出了关于性能、稳定性和易用性的关键经验。原创 2025-04-21 14:27:37 · 891 阅读 · 0 评论 -
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
使用参数可以指定上游表名到下游 Kafka Topic 名的映射关系。无需使用 route 配置。与之前介绍的通过 route 实现的不同点在于,配置该参数可以在保留源表的表名信息的情况下设置写入的 Topic 名称。在前面的 YAML 文件中增加配置指定映射关系,每个映射关系由;分割,上游表的 TableId 和下游 Kafka 的 Topic 名由source:...sink:...pipeline:......"after": {"id": 1,},"op": "c",原创 2025-04-20 10:15:00 · 982 阅读 · 0 评论 -
大数据职业发展方向&知识图谱
大环境不是很好,打铁还需自身硬,无论任何情况下,只有不断提升自我,才能做到内心平静!最近两天工作不是很忙,带着部门的小伙伴梳理复盘了一下大数据方面的知识点。大数据相关工作主要分为数据开发、平台开发、基础架构三部分。原创 2025-04-20 10:00:00 · 1976 阅读 · 0 评论 -
终于有人把“数据建模”讲清楚了!
大家做数据多年,在不少企业的数据系统中,可能会遇到这样的问题:不同系统里都有个叫“客户ID”的字段,一个是营销系统里的潜在客户编号,一个是CRM里的注册用户ID,另一个是订单系统里的付费客户主键,这些字段名看起来一样,实际含义却完全不同,数据团队拉错字段算错指标,分析有误,业务根本无法展开。这些问题看似是字段管理没做好,其实背后真正的原因是:没有建立起统一的数据模型,数据结构在最开始就没对齐。数据建模数据建模是将业务世界中的对象、行为和规则,通过结构化方式映射为数据模型的过程。原创 2025-04-19 10:15:00 · 815 阅读 · 0 评论 -
Doris x Paimon湖仓一体建设技术要点
湖仓一体」这个概念大家应该都不陌生了。我们在之前的文章中提高过,关于如何实现「湖仓一体」,方案并不是统一的,和你当前的技术栈以及业务场景息息相关。其中基于Doris x Paimon(或者其他的数据湖组件例如Hudi等),是其中一个可选的方案。本文写的就是这种方案主要解决的问题和用到的能力。原创 2025-04-19 10:00:00 · 1266 阅读 · 0 评论 -
从阿里、腾讯、字节、快手四大厂实践,看湖仓一体如何解决大数据核心痛点
维度阿里妈妈腾讯视频字节跳动快手核心诉求实时决策指标治理多引擎协同查询性能存储选型PaimonIcebergHudiHudi+Hive计算引擎多引擎协同Doris优化重点毫秒级延迟口径一致性灵活扩展成本控制典型收益CTR提升2%+开发效率+50%组件减少50%查询100ms响应经验启示1.实时性优先场景:选择Paimon+Flink组合,关注Change-Log模式和点查优化2.治理复杂场景:采用StarRocks+指标中台,强化口径一致性管理。原创 2025-04-18 10:55:15 · 1797 阅读 · 0 评论 -
DeepSeek在数据仓库的10大应用场景
DeepSeek提供智能数据集成、清洗、建模、分析等12大应用场景,涵盖数据仓库全生命周期管理,支持实时处理、预测分析与自动化运维,帮助企业实现高效数据治理及基于数据的决策支持,推动业务增长与创新。原创 2025-04-17 09:45:40 · 1492 阅读 · 0 评论 -
元数据管理:组织数据资产的“导航仪”与“说明书”
元数据的经典定义是“描述数据的数据”,但如何让业务人员快速理解?简单来说,就是描述某个数据本身特征的数据。而这些特征,我们一般称之为属性,一般包括技术属性、业务属性和管理属性。户口本:记录了个人的姓名、年龄、血型、亲属关系等个人相关数据信息,也记录了该户口本生成的时间、数据来源于哪个派出所等信息。户口本作为这些信息的载体,它为数据提供了最基本的身份标识和描述。户口本就像一个系统的数据库一样,记录了个人数据信息的名称、长度、是否为空、这个数据信息的含义等;原创 2025-04-16 10:01:40 · 660 阅读 · 0 评论 -
畅想描绘:多模态数据治理体系框架
站在数据治理和人工智能的侧面,从数据的产生到价值的挖掘,再到服务的提供,离不开大数据技术、人工智能技术,以及其他技术的应用,因此,面对一个新兴的技术,不必感到恐慌和不解,这就是一个技术而已,至于怎么用,要看业务。多模态数据治理中,多模态数据融合和模型的训练推理将是重点关注的领域。数据治理是人工智能的数据基础,数据治理的目的是在业务价值驱动下提供高质量、有价值的大量数据,而人工智能本身是数据应用的一种实现方式,会延伸出多样化的商业模式,数据治理和人工智能密不可分,数据治理强调修炼内功,人工智能侧重数据应用。原创 2025-04-15 10:46:31 · 987 阅读 · 0 评论 -
DeepSeek对面向人工智能的数据治理市场的影响到底有多大?
我最近在反思AI对数据治理领域的影响。各类主流机构纷纷提出了“ DG4AI”(Data Governance for Artificial Intelligence)的理念,但这个理念似乎还并未形成规模化的影响,这可能源于数据治理体系的成熟以及AI技术本身作为技术融入到体系而已。AI技术本身的爆炸点在国内市场由于DeepSeeK的出现轰炸了一圈,但我还是想反思一下“DG4AI”到底在说什么?原创 2025-04-01 14:35:08 · 1129 阅读 · 0 评论 -
多模态数据治理-DeepSeek加速AI落地
多模态数据治理指对多种数据结构的数据进行有效管理、存储、处理、分析和应用的过程。多模态数据主要包括文本、图片、视频、音频等类型的数据。多模态数据治理的目的是让不同类型的数据能够互相融合,形成新的内容供使用。我们可以把这个过程理解为是一个新内容创作和生成的过程。原创 2025-03-25 14:31:24 · 1898 阅读 · 0 评论 -
DG4AI:人工智能+数据治理,如何融合?
综合考虑人工智能应用的具体需求,包括数据的准确性、完整性、一致性和时效性等。然而,这些目标往往难以量化和标准化,导致在实际操作中难以评估和优化。那么,确定数据质量的基准和目标,便成为对数据理解和业务理解的一种基础挑战。原创 2025-03-24 13:56:23 · 1373 阅读 · 0 评论 -
DeepSeek如何颠覆传统数据治理模式
以上实现方式,与传统数据治理平台实施数据治理并无不同,区别在于融合了人工智能的相关工具或能力。目前,DeepSeek在数据治理领域并没有具体案例,诸多企业通过集成DeepSeek能力以增强大模型的能力,主要应用在通用智能问答、代码优化、运维服务提升等方面。原创 2025-03-18 09:11:06 · 1160 阅读 · 0 评论 -
当古老的 Ambari Metrics 遇上现代监控:我们如何重构一个停滞不前的监控系统
Ambari Metrics System (简称AMS) 诞生于大数据技术的早期阶段,是 Apache Ambari 提供的一个专为 Hadoop 集群设计的监控系统。它的核心目标是帮助用户实时了解集群的运行状况,及时发现并解决潜在问题。从架构上看,AMS 由四个主要层次组成:1.数据采集层◦Metrics Monitor:部署在集群的每个节点上,负责收集主机级别的指标(如 CPU 使用率、内存使用情况、磁盘 I/O 等)原创 2025-03-13 11:04:43 · 846 阅读 · 0 评论 -
深度融合|Apache Doris 与 DeepSeek:构建智能数据分析新生态
Apache Doris 与 DeepSeek 的深度融合,正在重新定义数据分析的边界。这种结合不仅实现了从"人适应机器"到"机器理解人"的转变,更通过智能化的数据处理和自然交互,释放了数据资产的真正价值。随着技术的不断演进,我们期待看到更多企业通过这种智能分析组合,实现数据驱动决策的质的飞跃。文章来源:公众号:Apache Doris 补习班更多关于Doris内容及工具请关注Doris社区 | 巨人肩膀。原创 2025-03-10 14:01:05 · 1631 阅读 · 0 评论 -
eBay 基于 Celeborn RESTful API 进行自动化工具集成实践
作者:王斐,ebay Hadoop 团队软件工程师,Apache Kyuubi PMC member,Apache Celeborn Committer。简介:Apache Celeborn 是一个统一的大数据中间服务,致力于提高不同MapReduce引擎的效率和弹性。为了Spark on Kubernetes的弹性以及解决External Shuffle Service的灵活性和稳定性不足,eBay引入 Celeborn 作为Remote Shuffle Service。本文介绍了eBay基于最新 RES原创 2024-11-29 22:47:40 · 1110 阅读 · 0 评论 -
Apache Doris 现行版本 Docker-Compose 运行教程
随着 Apache Doris 项目的火热,很多想尝鲜或者试用的小伙伴都希望通过 Docker 来快速拉起一个功能测试或者开发的集群,但由于一些变更原因,Doris On Docker 这一块的内容还未来得及调整完,所以为了让更多的小伙伴不卡在快速使用的路上,特此出一版教程给大家快速拉起试用。原创 2024-11-28 23:49:10 · 1464 阅读 · 0 评论 -
Apache Doris 现行版本 Docker-Compose 运行教程
随着 Apache Doris 项目的火热,很多想尝鲜或者试用的小伙伴都希望通过 Docker 来快速拉起一个功能测试或者开发的集群,但由于一些变更原因,Doris On Docker 这一块的内容还未来得及调整完,所以为了让更多的小伙伴不卡在快速使用的路上,特此出一版教程给大家快速拉起试用。启动脚本中,强制校验了为三处环境变量值,若不满足则无法正常启动进程,这三处环境变量值的。校验的情况,会在后续版本中尽快优化掉,带来的不便敬请谅解~脚本,或通过临时启动一个 be 的容器,将容器内在。原创 2024-11-28 23:43:14 · 3104 阅读 · 0 评论 -
记一次Hiveserver2连接异常的解决-腾讯云-emr
离线任务跑的好好的,忽然有一天失败了,查看海豚上的任务执行日志发现是hiveserver2连接超时了。原创 2024-09-10 22:03:28 · 1144 阅读 · 0 评论 -
Dolphinscheduler 3.2.0版本参数传递并使用switch任务进行判断
Dolphinscheduler 3.2.0版本参数传递并使用switch任务进行判断原创 2024-08-31 21:09:06 · 1990 阅读 · 0 评论 -
采集工具选型调研
大家一起来探讨SeaTunnel方案,简化当前Dinky与chunjun的双轨模式(Dinky仅用于实时同步,chunjun负责离线处理)。提议小组一起共议,并由大数据组构建demo验证其能否融合流批处理于Zeus平台,实现统一开发与运维,降低跨平台障碍与学习成本。技术应聚焦高效而非堆砌,共同努力推动架构优化。原创 2024-08-30 15:11:05 · 2063 阅读 · 0 评论 -
【Apache Doris】数据均衡问题排查指南
【Apache Doris】数据均衡问题排查指南原创 2024-08-30 15:05:31 · 3085 阅读 · 0 评论 -
一文彻底搞懂ZooKeeper选举机制
ZooKeeper 是一个高性能分布式的开源协调服务,用于构建分布式应用程序和服务。 一个 ZooKeeper 集群通常由多个 ZooKeeper 服务器组成,这些服务器分布在不同的物理节点上。在集群中,每个服务器都知道其他服务器的存在,并且彼此协调工作以提供一致性和可用性。原创 2024-08-28 17:00:15 · 1718 阅读 · 0 评论 -
Dinky教程- 数据源那些你不知道的功能
在我们日常使用Dinky过程中,数据源是必不可少的,它可以帮我们快速创建Flink sql,查询数据,检查元数据等功能,但是对于连接模板与连接配置以及其他功能你都了解吗?下面我来讲一下DInky 数据源的玩法全流程,希望对你开发有帮助。原创 2024-08-28 11:22:11 · 1770 阅读 · 0 评论
分享