
大数据
文章平均质量分 88
atbigapp.com
www.atbigapp.com,专业开发者合作平台。
展开
-
DeepSeek对面向人工智能的数据治理市场的影响到底有多大?
我最近在反思AI对数据治理领域的影响。各类主流机构纷纷提出了“ DG4AI”(Data Governance for Artificial Intelligence)的理念,但这个理念似乎还并未形成规模化的影响,这可能源于数据治理体系的成熟以及AI技术本身作为技术融入到体系而已。AI技术本身的爆炸点在国内市场由于DeepSeeK的出现轰炸了一圈,但我还是想反思一下“DG4AI”到底在说什么?原创 2025-04-01 14:35:08 · 946 阅读 · 0 评论 -
多模态数据治理-DeepSeek加速AI落地
多模态数据治理指对多种数据结构的数据进行有效管理、存储、处理、分析和应用的过程。多模态数据主要包括文本、图片、视频、音频等类型的数据。多模态数据治理的目的是让不同类型的数据能够互相融合,形成新的内容供使用。我们可以把这个过程理解为是一个新内容创作和生成的过程。原创 2025-03-25 14:31:24 · 977 阅读 · 0 评论 -
DG4AI:人工智能+数据治理,如何融合?
综合考虑人工智能应用的具体需求,包括数据的准确性、完整性、一致性和时效性等。然而,这些目标往往难以量化和标准化,导致在实际操作中难以评估和优化。那么,确定数据质量的基准和目标,便成为对数据理解和业务理解的一种基础挑战。原创 2025-03-24 13:56:23 · 911 阅读 · 0 评论 -
DeepSeek如何颠覆传统数据治理模式
以上实现方式,与传统数据治理平台实施数据治理并无不同,区别在于融合了人工智能的相关工具或能力。目前,DeepSeek在数据治理领域并没有具体案例,诸多企业通过集成DeepSeek能力以增强大模型的能力,主要应用在通用智能问答、代码优化、运维服务提升等方面。原创 2025-03-18 09:11:06 · 1055 阅读 · 0 评论 -
当古老的 Ambari Metrics 遇上现代监控:我们如何重构一个停滞不前的监控系统
Ambari Metrics System (简称AMS) 诞生于大数据技术的早期阶段,是 Apache Ambari 提供的一个专为 Hadoop 集群设计的监控系统。它的核心目标是帮助用户实时了解集群的运行状况,及时发现并解决潜在问题。从架构上看,AMS 由四个主要层次组成:1.数据采集层◦Metrics Monitor:部署在集群的每个节点上,负责收集主机级别的指标(如 CPU 使用率、内存使用情况、磁盘 I/O 等)原创 2025-03-13 11:04:43 · 726 阅读 · 0 评论 -
深度融合|Apache Doris 与 DeepSeek:构建智能数据分析新生态
Apache Doris 与 DeepSeek 的深度融合,正在重新定义数据分析的边界。这种结合不仅实现了从"人适应机器"到"机器理解人"的转变,更通过智能化的数据处理和自然交互,释放了数据资产的真正价值。随着技术的不断演进,我们期待看到更多企业通过这种智能分析组合,实现数据驱动决策的质的飞跃。文章来源:公众号:Apache Doris 补习班更多关于Doris内容及工具请关注Doris社区 | 巨人肩膀。原创 2025-03-10 14:01:05 · 1193 阅读 · 0 评论 -
eBay 基于 Celeborn RESTful API 进行自动化工具集成实践
作者:王斐,ebay Hadoop 团队软件工程师,Apache Kyuubi PMC member,Apache Celeborn Committer。简介:Apache Celeborn 是一个统一的大数据中间服务,致力于提高不同MapReduce引擎的效率和弹性。为了Spark on Kubernetes的弹性以及解决External Shuffle Service的灵活性和稳定性不足,eBay引入 Celeborn 作为Remote Shuffle Service。本文介绍了eBay基于最新 RES原创 2024-11-29 22:47:40 · 974 阅读 · 0 评论 -
Apache Doris 现行版本 Docker-Compose 运行教程
随着 Apache Doris 项目的火热,很多想尝鲜或者试用的小伙伴都希望通过 Docker 来快速拉起一个功能测试或者开发的集群,但由于一些变更原因,Doris On Docker 这一块的内容还未来得及调整完,所以为了让更多的小伙伴不卡在快速使用的路上,特此出一版教程给大家快速拉起试用。原创 2024-11-28 23:49:10 · 1130 阅读 · 0 评论 -
Apache Doris 现行版本 Docker-Compose 运行教程
随着 Apache Doris 项目的火热,很多想尝鲜或者试用的小伙伴都希望通过 Docker 来快速拉起一个功能测试或者开发的集群,但由于一些变更原因,Doris On Docker 这一块的内容还未来得及调整完,所以为了让更多的小伙伴不卡在快速使用的路上,特此出一版教程给大家快速拉起试用。启动脚本中,强制校验了为三处环境变量值,若不满足则无法正常启动进程,这三处环境变量值的。校验的情况,会在后续版本中尽快优化掉,带来的不便敬请谅解~脚本,或通过临时启动一个 be 的容器,将容器内在。原创 2024-11-28 23:43:14 · 2198 阅读 · 0 评论 -
记一次Hiveserver2连接异常的解决-腾讯云-emr
离线任务跑的好好的,忽然有一天失败了,查看海豚上的任务执行日志发现是hiveserver2连接超时了。原创 2024-09-10 22:03:28 · 889 阅读 · 0 评论 -
Dolphinscheduler 3.2.0版本参数传递并使用switch任务进行判断
Dolphinscheduler 3.2.0版本参数传递并使用switch任务进行判断原创 2024-08-31 21:09:06 · 1113 阅读 · 0 评论 -
采集工具选型调研
大家一起来探讨SeaTunnel方案,简化当前Dinky与chunjun的双轨模式(Dinky仅用于实时同步,chunjun负责离线处理)。提议小组一起共议,并由大数据组构建demo验证其能否融合流批处理于Zeus平台,实现统一开发与运维,降低跨平台障碍与学习成本。技术应聚焦高效而非堆砌,共同努力推动架构优化。原创 2024-08-30 15:11:05 · 1833 阅读 · 0 评论 -
【Apache Doris】数据均衡问题排查指南
【Apache Doris】数据均衡问题排查指南原创 2024-08-30 15:05:31 · 2513 阅读 · 0 评论 -
一文彻底搞懂ZooKeeper选举机制
ZooKeeper 是一个高性能分布式的开源协调服务,用于构建分布式应用程序和服务。 一个 ZooKeeper 集群通常由多个 ZooKeeper 服务器组成,这些服务器分布在不同的物理节点上。在集群中,每个服务器都知道其他服务器的存在,并且彼此协调工作以提供一致性和可用性。原创 2024-08-28 17:00:15 · 1442 阅读 · 0 评论 -
Dinky教程- 数据源那些你不知道的功能
在我们日常使用Dinky过程中,数据源是必不可少的,它可以帮我们快速创建Flink sql,查询数据,检查元数据等功能,但是对于连接模板与连接配置以及其他功能你都了解吗?下面我来讲一下DInky 数据源的玩法全流程,希望对你开发有帮助。原创 2024-08-28 11:22:11 · 1454 阅读 · 0 评论 -
Bigtop 从0开始(下)
BigTop的应用场景:1. BigTop通过提供预配置的Docker镜像,极大简化了在不同操作系统上编译大数据组件的rpm或deb包的过程,使之变得快捷且高效。2. BigTop集成了编译过程中所需的复杂依赖关系,有效解决了常见的编译错误,并且通过代码中的补丁确保了流畅的编译体验。这意味着,用户不再需要为官方包无法编译或搭建复杂的编译环境而感到困扰。3. BigTop还提供了对Apache Ambari的支持,使用户能够轻松打包与Ambari兼容、满足安装要求的大数据软件包。原创 2024-08-22 19:16:17 · 902 阅读 · 0 评论 -
Bigtop 从0开始(上)
1. BigTop通过提供预配置的Docker镜像,极大简化了在不同操作系统上编译大数据组件的rpm或deb包的过程,使之变得快捷且高效。2. BigTop集成了编译过程中所需的复杂依赖关系,有效解决了常见的编译错误,并且通过代码中的补丁确保了流畅的编译体验。这意味着,用户不再需要为官方包无法编译或搭建复杂的编译环境而感到困扰。3. BigTop还提供了对Apache Ambari的支持,使用户能够轻松打包与Ambari兼容、满足安装要求的大数据软件包。原创 2024-08-22 18:59:15 · 589 阅读 · 0 评论 -
Dinky教程--Flink CDC pipline整库同步Doris
Dinky 是一个基于 Apache Flink 的实时计算平台,它提供了一站式的 Flink 任务开发、运维、监控等功能。本教程一步一步的教你如何使用dinky运行CDC pipline任务实现整库同步Doris并自动建表功能。Starrocks同理原创 2024-08-19 11:04:39 · 2247 阅读 · 0 评论 -
Dinky手把手教程 - 集成K8s,提交Flink On K8s Application任务
Dinky 是一个基于 Apache Flink 的实时计算平台,它提供了一站式的 Flink 任务开发、运维、监控等功能。Kubernetes 是一个强大的容器编排平台,能够自动化应用的部署、扩展和管理。将 Flink 与 Kubernetes 集成,可以充分利用 Kubernetes 的优势,实现 Flink 任务的弹性伸缩、自动化部署和高可用性。原创 2024-08-19 10:41:52 · 1536 阅读 · 0 评论 -
Dinky手把手教程 - 连接Flink Sql Cli控制台
Dinky 是一个开箱即用的一站式实时计算平台,以 Apache Flink 为基础,连接 OLAP 和数据湖等众多框架,致力于流批一体和湖仓一体的建设与实践。flink sql cli是flink 提供的一个sql执行工具,可以方便的进行sql预览,执行等操作原创 2024-08-16 11:39:45 · 1667 阅读 · 0 评论 -
Dinky手把手教程-Docker快速部署
本教程使用三种不同的方式通过 Docker 完成 Dinky 的部署,如果你想要快速体验,推荐使用 standalone-server 镜像, 如果你想要体验比较完整的服务,推荐使用 docker-compose 启动服务。如果你已经有自己的数据库服务 你想要沿用这些基础服务,你可以参考沿用已有的 Mysql 、 Hadoop 和 Flink 服务完成部署。原创 2024-08-15 11:14:45 · 1022 阅读 · 0 评论 -
Seatunnel-Web环境搭建
SeaTunnel Web是一个Web项目,提供对作业、调度、运行和监控功能的可视化管理。它基于 SeaTunnel 连接器 API 和 SeaTunnel Zeta 引擎开发。它是一个可以独立部署的 Web 项目。它也是SeaTunnel的一个子项目。欲了解更多信息,请参阅SeaTunnel Web。原创 2024-08-13 10:52:51 · 1284 阅读 · 0 评论 -
Doris 夺命 30 连问!(下)
30 问最后一篇了,希望这 30 问能解答大家在使用 Apache Doris 或者选择 Apache Doris 的时候产生的各种疑虑。原创 2024-08-13 10:16:47 · 1523 阅读 · 0 评论 -
Doris 夺命 30 连问!(中)
这是继上次的 30 问上篇的中篇,也是 10 个问题,有些还是比较难回答的,欢迎大家在评论区或者私聊我来进行 battle~原创 2024-08-12 10:56:42 · 928 阅读 · 0 评论 -
Doris 夺命 30 连问!(上)
在前段时间和 Apache Doris 一个数据体量比较大的测试用户沟通过程中,对方的多达十几人的大数据架构师团队就关于 Apache Doris 的各种特性和自身业务场景提出了众多问题,个人感觉非常有探讨的价值,一起来看看,如果有异议或者意见,可以评论留言,也可以私聊~原创 2024-08-09 15:46:16 · 1326 阅读 · 0 评论 -
全面介绍 Apache Doris 数据灾备恢复机制及使用示例
Apache Doris 作为一款 OLAP 实时数据仓库,在越来越多的中大型企业中逐步占据着主数仓这样的重要位置,主数仓不同于 OLAP 查询引擎的场景定位,对于数据的灾备恢复机制有比较高的要求,本篇就让我们全面的介绍和示范如何利用这些特性能力构建集群数据的灾备恢复机制。原创 2024-08-09 12:59:29 · 2076 阅读 · 0 评论