
大数据
文章平均质量分 87
包含分布式存储与计算、数据仓库、数据集成、数据可视化等大数据模块,有助于对大数据方向的系统学习。
james二次元
分享大数据及AI相关技术,每天进步一点点,和大家一起学习、一起进步!
展开
-
分布式的消息流平台之Pulsar
Apache Pulsar 是一个分布式的消息流平台,集成了**消息队列(MQ)和流处理(Stream Processing)**能力。Pulsar 不仅提供低延迟、高吞吐的消息传输能力,还支持基于 Pulsar Functions、Flink、Spark Streaming 的流式处理能力。原创 2025-03-19 07:47:39 · 759 阅读 · 0 评论 -
Informatica介绍
Informatica 是一个领先的数据集成和数据管理平台,提供 ETL(Extract, Transform, Load) 解决方案,同时涵盖 数据治理、主数据管理(MDM)、云数据集成、数据质量 等多个领域。它广泛用于 数据仓库、数据湖、数据分析、主数据管理、数据治理 等企业级应用场景。原创 2025-03-07 05:00:00 · 700 阅读 · 0 评论 -
分布式查询服务之Kyuubi
Kyuubi 是一个高效的分布式数据查询服务,基于 Apache Spark 构建,旨在提升 Spark 的可扩展性、可靠性以及易用性。它为数据工程师和数据科学家提供了一个更加简化和统一的方式来访问 Spark 集群,同时支持 SQL 查询、JDBC、ODBC 接口等。Kyuubi 的目标是将 Spark 的 SQL 查询能力扩展为更加高效和灵活的查询引擎,尤其是在大规模分布式环境下。Kyuubi 的架构灵活,能够支持不同的查询引擎扩展,并且为企业级应用提供了更多的可定制性。原创 2025-02-28 05:15:00 · 778 阅读 · 0 评论 -
对象存储之Ceph
Ceph 是一个开源分布式存储系统,旨在提供高度可扩展、高度可用、容错、性能优异的存储解决方案。它结合了块存储、文件系统存储和对象存储的功能,且在设计上具有极高的可扩展性和灵活性。在 Ceph 中,对象存储(Ceph Object Storage)是一个非常重要的组件,它主要是通过 RADOS(可靠自动分布式对象存储)来实现的。Ceph 对象存储通常用于存储非结构化数据,比如大规模的图片、视频、备份等,它支持通过 RESTful API 提供对象存储服务。原创 2025-02-24 05:00:00 · 664 阅读 · 0 评论 -
Spark之PySpark
PySpark 是 Apache Spark 的 Python API,它允许开发者使用 Python 编程语言进行大规模数据处理和分析。Apache Spark 是一个快速、通用、可扩展的大数据处理引擎,支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark 使得 Python 开发者能够利用 Spark 强大的分布式计算能力,处理大数据集,并执行高效的并行计算。原创 2025-02-19 05:15:00 · 1094 阅读 · 0 评论 -
Flink之Watermark
Apache Flink 是一个分布式流处理框架,它非常擅长处理实时数据流。流处理中的一个关键挑战是事件时间的处理,因为在流式数据中,事件到达系统的顺序可能并不代表它们的实际发生时间。为了解决这一问题,Flink 引入了**Watermark(水印)**机制,用于处理乱序数据和保证事件时间的正确性。原创 2025-02-12 09:13:04 · 673 阅读 · 0 评论 -
Flink之ForST DB
Flink 作为一款实时流处理框架,广泛应用于实时计算、事件驱动的应用场景。为了支持大规模状态存储和计算,Flink 的状态后端设计允许将状态存储在外部系统中。ForST DB 是一个针对 Flink 存算分离架构设计的高性能状态存储系统,旨在提升状态管理的可扩展性、性能和可靠性。原创 2024-12-23 05:00:00 · 1657 阅读 · 0 评论 -
配置管理之Consul
Consul 是 HashiCorp 推出的一款用于服务发现、配置管理、和服务网格的开源工具。Consul 通过分布式架构来实现自动化的服务发现和健康检查,并具备内置的服务网格功能,支持动态负载均衡、加密和 ACL 管理,广泛用于微服务架构、云原生应用和跨数据中心的集群管理。原创 2024-11-05 05:00:00 · 778 阅读 · 0 评论 -
云原生文件系统之JuiceFS
JuiceFS 是一个分布式文件系统,专门为云原生环境设计,支持大规模数据存储和处理,特别适用于处理对象存储和大数据应用。JuiceFS 将元数据和数据分离,元数据保存在数据库中,而文件数据则存储在对象存储中,提供 POSIX 兼容的文件系统接口。JuiceFS 的设计使其能够在性能、扩展性和成本之间取得平衡,为用户提供快速、灵活的数据存储解决方案。原创 2024-10-31 05:00:00 · 1173 阅读 · 0 评论 -
配置管理之Nacos
Nacos 是阿里巴巴开源的动态服务发现、配置管理和服务管理平台,专为构建现代微服务架构设计。Nacos 是 “Dynamic Naming and Configuration Service” 的缩写,旨在简化微服务应用中的服务注册、配置管理和动态服务发现。它为服务提供了集中化的管理平台,帮助开发者更轻松地实现服务间的通信与配置管理。原创 2024-10-21 05:00:00 · 831 阅读 · 0 评论 -
图计算框架之Giraph
Apache Giraph 是一个大规模并行图处理框架,专门用于处理社交网络、推荐系统等图结构数据。它是一款基于 Bulk Synchronous Parallel (BSP) 模型的分布式图计算系统,最初设计为用于 Facebook 等社交媒体平台处理海量图数据的工具。Giraph 是在 Hadoop 的 MapReduce 之上进行优化并独立发展的,专门用于高效处理超大规模的图计算任务,如 PageRank、最短路径等。原创 2024-10-18 05:00:00 · 1543 阅读 · 0 评论 -
大数据查询引擎之Tez
Apache Tez 是一个用于大数据处理的分布式计算框架,旨在提高 Hadoop 的 MapReduce 计算引擎的效率和性能。它是一个面向 DAG(有向无环图)任务执行的框架,主要用于大规模数据处理场景中,特别是在 Apache Hadoop 生态系统中。Tez 的出现大大提高了 Hadoop 的计算效率,尤其是在复杂的批处理和交互式查询场景中,得到了广泛应用。原创 2024-10-17 05:00:00 · 1582 阅读 · 0 评论 -
DolphinScheduler 之时间参数
在 DolphinScheduler 中,调度时对时间参数的使用非常重要,尤其是当你在数据处理、ETL 任务或其他需要依赖时间范围的任务场景中。DolphinScheduler 允许通过多种方式灵活地配置时间参数,以适应不同的任务调度需求。以下是时间参数在 DolphinScheduler 调度中的常见使用方法:原创 2024-10-15 05:00:00 · 2555 阅读 · 0 评论 -
Hive之任务优化
Hive 是一个基于 Hadoop 的数据仓库工具,提供了 SQL-like 的查询语言来分析存储在 HDFS(Hadoop Distributed File System)上的大规模数据集。为了提高查询性能,Hive 提供了多种优化方法,涵盖不同层次的改进,从 SQL 查询层到执行层。原创 2024-09-23 05:00:00 · 1165 阅读 · 0 评论 -
大数据之OneData
OneData是阿里巴巴内部进行数据整合及管理的方法体系和工具,其核心目标是构建统一、规范且可共享的全域数据体系。通过这一体系,企业可以避免数据的冗余和重复建设,规避数据烟囱和不一致性问题,从而充分发挥在大数据海量、多样性方面的独特优势。OneData体系 是一种企业级数据治理和管理体系,旨在解决企业内数据孤岛、数据标准不一致、数据利用率低等问题。它通过统一的数据模型、标准化的数据管理流程,以及高度自动化的数据处理能力,帮助企业更好地管理和利用数据资源。原创 2024-09-18 05:45:00 · 1307 阅读 · 0 评论 -
列式存储之Kudu
Apache Kudu是一个开源的列式存储系统,特别设计用于处理大规模数据集的高效实时分析和批量处理。Kudu结合了传统的列式存储数据库和分区文件系统的优点,提供了的数据读取写入操作,同时能够支持快速的随机读写和批量扫描。Kudu 是专门为数据仓库、实时数据分析和流处理等应用场景打造的,能够有效地解决 HDFS(Hadoop 循环文件系统)和 HBase 这些方面的问题场景中的限制。原创 2024-09-18 05:15:00 · 1352 阅读 · 0 评论 -
大数据安全之Kerberos
Kerberos 是一个网络身份验证协议,旨在提供强身份验证,尤其是在开放网络环境中。它最早由麻省理工学院(MIT)开发,用于在不安全的网络环境中安全地验证用户身份。Kerberos 协议的设计旨在防止窃听、重放攻击和网络中的其他常见威胁。Kerberos 的名字来源于希腊神话中的三头犬“Kerberos”,象征其三方身份验证模型,即客户端、服务器和票据授予服务(TGS)。Kerberos 被广泛应用于操作系统(如 Windows、Unix 和 Linux)、数据库和其他需要身份验证的网络服务。原创 2024-09-13 05:15:00 · 1278 阅读 · 0 评论 -
Hadoop安全之Ranger
Apache Ranger 是一个开源项目,专门为大数据平台提供集中化的安全管理框架。它提供了对 Hadoop 生态系统和其他大数据存储系统的访问控制、权限管理、审计等功能,确保数据的安全性和合规性。通过 Apache Ranger,管理员可以在一个中心化的界面中定义和管理跨集群的安全策略,同时监控用户的操作行为。原创 2024-09-11 05:00:00 · 866 阅读 · 0 评论 -
分布式 SQL 数据库之TiDB
TiDB 是一个开源的分布式 SQL 数据库,具备高可扩展性和强一致性。它支持在线扩展、水平伸缩,提供与 MySQL 兼容的 SQL 接口,同时支持事务处理和复杂查询。TiDB 是为大规模在线事务处理(OLTP)和在线分析处理(OLAP)设计的统一数据库,能够处理海量数据,并确保数据强一致性。原创 2024-09-10 05:00:00 · 1467 阅读 · 0 评论 -
Hadoop安全之Knox
Apache Knox 是一个 REST API 网关,为 Hadoop 集群提供安全的访问方式。Knox 提供了一层保护,简化了对 Hadoop 生态系统(如 HDFS、YARN、Hive、HBase 等)中各个组件的访问,并通过单点登录 (SSO)、认证、授权和审计功能,增强了集群的安全性。原创 2024-09-05 05:30:00 · 1942 阅读 · 0 评论 -
KV存储之Accumulo
Apache Accumulo 是一个基于 Google 的 Bigtable 设计开发的分布式键值存储系统。Accumulo 由 Apache 软件基金会维护,旨在提供大规模数据存储和检索的高性能和高可扩展性,同时支持细粒度的安全控制和高效的数据处理。Accumulo 主要用于大规模数据分析、地理空间数据存储、流处理、复杂数据查询等场景。原创 2024-09-04 05:30:00 · 2041 阅读 · 0 评论 -
数据集成之SeaTunnel
SeaTunnel(原名 Waterdrop)是一个开源的分布式数据集成平台,专注于实时数据流处理和离线批处理的统一处理能力。它旨在提供一个高效、易用的 ETL(Extract, Transform, Load)工具,可以帮助用户在大规模数据环境中轻松进行数据集成、清洗、转换和加载。SeaTunnel 兼容 Apache Spark 和 Apache Flink,能够处理海量数据,并支持多种数据源和目标。原创 2024-09-03 05:30:00 · 2181 阅读 · 0 评论 -
datax编译:解决datax不支持MongoDB 6.0.10的问题
datax同步MongoDB中的数据到hive,使用了mongodbreader和hdfswriter插件。MongoDB的版本是6.0.10,而datax的默认编译安装包中mongodbreader插件不支持。[ERROR] Could not find goal 'assembly' in plugin org.apache.maven.plugins:maven-assembly-plugin:3.7.1 among available goals help, single -> [Help 1]原创 2024-09-02 05:15:00 · 1072 阅读 · 0 评论 -
元数据工具之Atlas
Apache Atlas 是一个开源的数据治理和元数据管理框架,旨在帮助组织管理和发现其数据资产。Atlas 提供了数据分类、数据血缘追踪、元数据搜索和可视化、数据治理等功能,是大数据生态系统中元数据管理的重要组成部分。以下是对 Apache Atlas 的详细介绍。原创 2024-08-29 05:00:00 · 3025 阅读 · 0 评论 -
内存文件系统之Alluxio
Alluxio 是一个开源的分布式虚拟化文件系统,旨在为计算框架和存储系统之间提供一个高效的数据访问层。它最初由 UC Berkeley 的 AMPLab 开发,最早以 Tachyon 的名义推出,后来更名为 Alluxio。Alluxio 的目标是通过将存储资源抽象为一个统一的命名空间,简化数据管理和访问,并提升数据处理的性能。原创 2024-08-26 05:15:00 · 2607 阅读 · 0 评论 -
数据湖之Delta Lake
Delta Lake 是一种开源的存储层技术,构建在 Apache Spark 的基础之上,旨在解决传统数据湖的可靠性、性能和数据一致性问题。它通过引入 ACID 事务、数据版本控制、时间旅行和统一的批处理与流处理等特性,显著提升了数据湖的可用性和数据管理能力。Delta Lake 由 Databricks 推出,现已成为现代数据湖架构的核心组件。原创 2024-08-21 05:00:00 · 2240 阅读 · 0 评论 -
MPP之Clickhouse
ClickHouse 是一款高性能的开源列式数据库管理系统(DBMS),由俄罗斯的 Yandex 公司开发,专为在线分析处理(OLAP)设计。它以极高的查询性能、水平可扩展性和高压缩率著称,适合大规模数据的实时分析。ClickHouse 可以在数十亿行数据中实现亚秒级的查询性能,广泛应用于互联网、金融、电信等行业的数据分析场景。原创 2024-08-20 05:30:00 · 1376 阅读 · 0 评论 -
OLAP引擎之Druid
Apache Druid 是一个开源的、分布式的实时分析数据库,专为大规模数据的快速查询和实时分析而设计。Druid 将数据存储、索引和查询处理功能结合在一起,支持对流数据和批量数据进行快速的、低延迟的分析查询。它特别适用于需要高并发、低延迟查询的场景,如实时数据分析、监控、在线广告分析等。原创 2024-08-20 05:00:00 · 1109 阅读 · 0 评论 -
计算中间件平台之Linkis
Linkis 是由WeBank自主研发的一款面向大数据和AI的计算中间件平台。它的设计初衷是为了简化和统一各种计算引擎的调用和管理,降低使用大数据和AI技术的门槛。Linkis可以帮助用户在一个平台上方便地调用各种数据处理引擎,如Hadoop、Spark、Hive、Flink等,从而实现对数据的统一管理和分析。原创 2024-08-19 05:30:00 · 1298 阅读 · 0 评论 -
Superset 4.0.1导出csv数据中文乱码问题解决
Superset 4.0.1导出csv数据中文乱码问题解决Apache Superset 是一个开源的数据探索和可视化平台,专门用于创建交互式数据报表和仪表盘。它具有强大的数据集成和可视化能力,广泛用于数据分析和商业智能领域。原创 2024-08-18 09:31:56 · 583 阅读 · 0 评论 -
流式数据处理平台之Dinky
Dinky 是一个基于 Apache Flink 的流式数据处理平台,致力于提供高效、实时的数据流处理能力。通过简化大数据处理和分析任务的开发与运维,Dinky 成为构建实时数据管道、复杂事件处理系统和实时分析平台的理想选择。原创 2024-08-15 05:30:00 · 1090 阅读 · 0 评论 -
数据湖之Iceberg
Apache Iceberg 是一个用于大规模数据集的开源表格式库,旨在解决传统数据湖在管理大型数据集时遇到的挑战。它由Netflix创建,并捐赠给了Apache软件基金会。Iceberg旨在提供一种高效、灵活且可扩展的方式来处理海量数据,同时保持强大的事务性保证。原创 2024-08-15 05:00:00 · 1332 阅读 · 0 评论 -
KV存储之ETCD
ETCD 是一种分布式键值存储系统,主要用于分布式系统中的配置管理、服务发现和分布式协调。它由 CoreOS 团队开发,现在是 CNCF(云原生计算基金会)托管的一个开源项目。ETCD 在设计时非常注重一致性、可用性和性能,通常被用于容器编排系统(如 Kubernetes)中,用作其后台数据存储。原创 2024-08-14 05:30:00 · 1721 阅读 · 0 评论 -
图数据库之Neo4j
Neo4j 是一种领先的开源图数据库,专门用于处理高度连接的数据结构。它使用图形模型来表示和存储数据,使得它在处理复杂关系和查询时表现出色。以下是对 Neo4j 的详细介绍原创 2024-08-14 05:00:00 · 1612 阅读 · 0 评论 -
数据同步工具之DataX
DataX 是由阿里巴巴开源的一款高效的数据同步工具,广泛用于不同存储系统之间的数据交换。作为一款轻量级的数据集成工具,DataX 能够在多种数据源和数据目标之间进行数据迁移、清洗和同步操作。以下是对 DataX 的详细介绍原创 2024-08-13 06:00:00 · 1120 阅读 · 0 评论 -
OLAP引擎之StarRocks
StarRocks 是一款新兴的开源分布式实时分析型数据库,专为高性能、高并发的数据分析场景设计。它结合了传统数据仓库和大数据技术的优势,提供了强大的实时数据处理和分析能力。原创 2024-08-12 07:00:00 · 1225 阅读 · 0 评论 -
数据湖之Paimon
Paimon 是一个针对流式数据湖的创新系统,它集成了流处理和数据湖存储的能力,旨在为大规模数据处理提供灵活、高效的解决方案。以下是对 Paimon 的详细介绍,涵盖从基本概念到实际应用的各个方面。原创 2024-08-12 06:30:00 · 2023 阅读 · 0 评论 -
流处理之TimePlus
TimePlus 是一款基于React和Node.js的开源工具的流处理平台,专门用于实时数据和历史数据的分析。它提供强大的一站式服务,帮助数据工程师快速、直观地处理流和历史数据。适用不同行业不同规模的数据团队,融合使用 SQL、JavaScript 和 Python 解锁流数据价值。原创 2024-08-07 05:45:00 · 781 阅读 · 0 评论 -
数据同步工具之Flink CDC
Flink CDC(Change Data Capture)是基于Apache Flink的一个扩展,用于捕获和处理数据库中的数据变化。它能够实时捕获关系数据库中的数据变更(如插入、更新、删除操作),并将这些变更流式传输到Flink进行处理。以下是Flink CDC的详细介绍:原创 2024-08-07 06:00:00 · 2281 阅读 · 0 评论 -
对象存储之MinIO
MinIO 是一个高性能、分布式的对象存储系统,主要用于处理大规模的非结构化数据,例如图片、视频、备份和日志文件。MinIO 兼容 Amazon S3 API,广泛应用于云原生应用和数据密集型工作负载。以下是对 MinIO 的详细介绍:原创 2024-08-08 05:45:00 · 1875 阅读 · 0 评论