
大数据
文章平均质量分 90
大数据指的是规模庞大、增长迅速、种类繁多的数据集合,无法通过传统技术进行有效处理。其主要特征包括数据量大、生成速度快、类型多样和准确性挑战。大数据技术栈包括数据存储(如HDFS)、数据处理(如Spark)、数据分析和可视化工具。应用场景广泛,涵盖金融、医疗、智能城市等领域,同时面临隐私安全、数据质量
Hello.Reader
so far away
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark vs Flink分布式数据处理框架的全面对比与应用场景解析
分布式数据处理框架应运而生,它通过将数据分片分布到多台服务器上并行处理,提高了任务的处理速度和效率。Apache Flink 的生态系统相对更专注于流处理任务,同时逐渐扩展到批处理和机器学习领域。目前,分布式数据处理框架被广泛应用于大数据分析、机器学习、实时监控等领域,成为数据驱动型企业的核心技术工具。:Spark 的模块化设计与广泛的语言支持相结合,使其能够覆盖从批处理到机器学习的多种场景。:Flink 的工具更专注于流处理和实时任务,其复杂事件处理模块和状态管理机制是显著优势。原创 2025-01-11 18:21:38 · 2372 阅读 · 0 评论 -
深入浅出稀疏索引
索引类型多种多样,每种类型都有其独特的结构和适用场景。在数据库管理系统中,索引的设计和实现对于提升数据检索效率至关重要。稀疏索引作为一种重要的索引类型,以其独特的结构和优势,在处理大规模数据时表现出色。本节将详细介绍稀疏索引的定义、基本原理,并与密集索引进行对比分析,帮助读者全面理解稀疏索引的核心概念和应用价值。**稀疏索引(Sparse Index)**是一种在索引结构中并不为数据表中的每一条记录都创建索引项的索引类型。原创 2024-12-13 11:05:33 · 1745 阅读 · 0 评论 -
基于 Elasticsearch Completion Suggester 实现高效搜索智能提示
搜索智能提示(Search Suggestion 或 Autocomplete)是指在用户输入关键词的过程中,系统根据用户的部分输入实时提供候选建议。这些提示通常基于用户的历史搜索记录、热门关键词或内容数据库生成,旨在提高搜索效率和准确性。例如,在电商平台中,当用户输入“iPh”时,系统可能会自动提示“iPhone 14 Pro Max”、“iPhone 配件”等选项,帮助用户快速完成搜索。在 Elasticsearch 中,是一种专为高效生成搜索提示而设计的工具。原创 2024-12-04 21:31:49 · 1425 阅读 · 0 评论 -
从基础到前沿:CTR预测技术全解析与未来展望
通过精准的CTR预测,广告系统可以更高效地实现用户与广告之间的匹配,从而提升广告主的投资回报率(ROI),同时提高用户的广告体验。CTR预测是广告系统中的重要模块,它不仅承担了点击率的预测任务,还通过与广告匹配环节的紧密结合,共同决定了广告的召回与排序。每一阶段的算法都针对特定的场景和需求进行了优化,从最早的逻辑回归到如今的复杂深度模型,CTR预测技术不断突破,为广告系统提供了更加精准的点击率预测。CTR预测模型的实现是整个预测流程的核心环节,包括数据的预处理、模型的选择与训练,以及模型的评估与部署。原创 2024-11-24 09:00:00 · 1339 阅读 · 0 评论 -
HTAP 技术的原理、实现
HTAP(Hybrid Transactional/Analytical Processing)是一种新兴的数据库架构设计理念,旨在解决传统数据库中事务处理(OLTP, Online Transaction Processing)和分析处理(OLAP, Online Analytical Processing)分离的问题。通过将事务和分析能力集成在一个统一的平台上,HTAP 系统能够实时处理数据并进行深度分析,而无需在两个系统之间进行复杂的数据同步操作。原创 2024-11-22 09:00:00 · 1977 阅读 · 0 评论 -
深入理解 DynamoDB
DynamoDB 是由 Amazon Web Services (AWS) 推出的 NoSQL 数据库,最早源于亚马逊内部的需求,特别是为了满足高度可扩展、低延迟的存储需求。2007 年,亚马逊发表了关于其分布式数据库 Dynamo 的论文,为 DynamoDB 提供了设计的理论基础。最终,AWS 在 2012 年正式推出 DynamoDB,成为一个全托管、无服务器的数据库服务,支持大规模的应用场景,并能够自动分配和扩展资源。原创 2024-11-10 09:00:00 · 1585 阅读 · 0 评论 -
InfluxDB性能优化指南
InfluxDB是一个开源的时间序列数据库(TSDB),由InfluxData公司开发,专门用于处理高频率的数据写入和查询。其设计初衷是为物联网、应用程序监控、DevOps和实时分析等场景提供一个高效的存储和查询解决方案。自2013年发布以来,InfluxDB不断发展,通过引入一系列先进的存储和查询技术,逐步提升了数据处理的性能和可扩展性。在最新的版本中,InfluxDB还增加了对分布式架构和流处理的支持,使其成为时间序列数据管理领域的热门选择。InfluxDB的架构设计专注于高性能数据存储和查询。原创 2024-11-06 09:00:00 · 2829 阅读 · 0 评论 -
深入解析 Memcached原理、架构与最佳实践
本文全面解析了 Memcached 的技术原理、架构设计以及在分布式系统中的应用。从缓存的必要性出发,我们了解了 Memcached 如何通过高效的键值对存储、灵活的内存管理和高并发的线程模型,显著提升系统性能,减轻后端数据库的压力。在实践中,合理地使用 Memcached,需要关注数据一致性、缓存策略、安全性以及性能调优等方面。通过与其他缓存系统的比较,如 Redis,我们可以更好地根据具体的业务需求,选择最适合的缓存解决方案。展望未来,Memcached 将继续在高速缓存领域发挥重要作用。原创 2024-10-31 09:00:00 · 1510 阅读 · 0 评论 -
Ceph 存储系统全解
Ceph 是一个开源的分布式存储系统,旨在提供高性能、可扩展、无单点故障的统一存储平台。它可以同时支持对象存储、块存储和文件系统存储,能够满足不同存储需求的多种应用场景。Ceph 通过其强大的 RADOS(可靠、自主分布式对象存储)基础架构,实现数据的智能分布和自我管理,确保数据的高可用性和冗余。Ceph 属于分布式存储系统,它将数据分散存储在多个节点上,而不是集中在一个单独的存储服务器中。高可用性和数据冗余:通过将数据分布到多个节点,Ceph 可以确保即使某个节点出现故障,数据依然可以从其他节点恢复。原创 2024-10-28 09:30:00 · 1857 阅读 · 0 评论 -
Trino深度解析
Trino 的连接器通过 Connector API 实现与外部数据源的集成。原创 2024-10-25 09:30:00 · 3147 阅读 · 0 评论 -
DragonflyDB 集群支持、持久化与高可用性详解
DragonflyDB 是一种高性能的内存数据库,专为处理大规模并发和极低延迟的需求而设计。它旨在取代传统的 Redis 和 Memcached 等内存数据库,在相同硬件资源下提供更高的吞吐量和更高效的内存使用。DragonflyDB 的核心设计目标是通过多线程架构、优化的内存管理以及并发处理模型,为开发者提供一个高效且可扩展的 NoSQL 数据库解决方案。是一个高性能、可扩展的内存数据库,具有诸多显著优势,使其在多种应用场景中表现出色。多线程架构的高并发处理能力。原创 2024-10-25 09:00:00 · 2300 阅读 · 0 评论 -
深入解析 Aerospike高性能分布式数据库的利器
Aerospike是一款高性能、分布式的 NoSQL 数据库,专为需要快速响应和高吞吐量的应用而设计。它最初于 2009 年由 Brian Bulkowski 和 Srini Srinivasan 创立,旨在解决广告实时竞价(RTB)系统中对超低延迟和高可靠性的需求。主要特点:亚毫秒级延迟:提供极低的读写延迟,满足实时性要求高的业务。高吞吐量:支持每秒数百万级别的事务处理。线性扩展:通过增加节点,能够线性提升集群的存储容量和处理能力。强一致性:支持可配置的强一致性模型,确保数据的准确性。原创 2024-10-24 09:15:00 · 1606 阅读 · 0 评论 -
深入解析 FarmHash 算法C++ 实现与性能优化
在大数据和高性能计算的时代,高效可靠的哈希函数对于数据存储、检索和分布式系统至关重要。FarmHash是由 Google 开发的一组高性能哈希函数,旨在为字符串和二进制数据提供快速且分布均匀的哈希值。本文将详细探讨 FarmHash 算法的原理、特点、应用场景,并提供在 C++ 中的实现和性能优化建议。哈希函数是一种将任意长度的输入数据映射为固定长度的散列值的算法。在计算机科学中,哈希函数广泛应用于数据结构(如哈希表)、加密、数据校验和负载均衡等领域。理想的哈希函数应具备以下特点:速度快。原创 2024-10-23 09:00:00 · 1254 阅读 · 0 评论 -
深入理解CityHash算法
在大数据和高性能计算领域,高效的哈希算法对于数据处理和检索至关重要。CityHash是由Google开发的一种高性能字符串哈希函数,专为处理任意长度的字节序列而设计。本文将深入探讨CityHash算法的核心原理,并通过C++示例代码解析其实现细节。原创 2024-10-23 09:30:00 · 1803 阅读 · 0 评论 -
深入解析 MurmurHash3 算法
确定性:相同的输入必须产生相同的输出。高性能:计算哈希值的速度应尽可能快。均匀分布:输出的散列值应均匀分布,减少哈希冲突。抗碰撞性:对于不同的输入,产生相同哈希值的概率应尽可能低。MurmurHash3 作为一款高性能、高质量的非加密哈希函数,广泛应用于需要快速哈希计算的各种场景。通过引入其源码库,您可以方便地在项目中使用 MurmurHash3,提高数据处理的效率和性能。在实际应用中,应根据具体需求和安全考虑,选择合适的哈希函数。原创 2024-10-22 09:00:00 · 2774 阅读 · 0 评论 -
使用 Java 实现高效的 URL 哈希化去重
在大规模的数据处理中,可能需要对海量的 URL 进行去重处理。例如,在爬虫系统、日志分析或实时推荐系统中,快速判断一个 URL 是否已经处理过至关重要。常规的字符串比较方法在面对大量数据时性能较差,因此我们需要一种高效、可靠的方法来实现 URL 的去重。原创 2024-10-22 08:45:00 · 909 阅读 · 0 评论 -
Apache Storm实时流处理的核心技术
Apache Storm 是一个流处理引擎,它可以持续处理不断到来的数据流(streams)。Storm 允许用户构建拓扑(Topology)来定义数据流的路径以及处理的逻辑。在这种拓扑中,数据从源(Spout)开始流入,通过一系列的处理节点(Bolt)进行转换或处理,最终得到输出结果。Storm 的架构基于并行执行的理念,支持高吞吐量和低延迟的数据处理。分布式数据流处理:Storm 可以在分布式环境下处理大量数据,支持大规模的集群部署。容错和高可用性。原创 2024-10-16 10:56:54 · 1854 阅读 · 0 评论 -
Databricks集群优化与大规模数据处理技巧
Databricks是一个基于Apache Spark的云端大数据处理和分析平台,它为用户提供了统一的环境来进行数据工程、数据科学、机器学习和商业智能(BI)任务。通过Databricks,用户可以在大规模分布式计算环境中,轻松地处理和分析各种规模的数据,并实现从数据导入、清洗、处理、分析到机器学习模型构建和部署的全流程管理。Databricks的核心理念是加速大数据项目的开发与管理,通过自动化集群管理、可视化界面和丰富的API,简化复杂的工作流程。原创 2024-10-17 09:00:00 · 2191 阅读 · 0 评论 -
Cassandra的核心优势与未来演进方向
这种架构使得Cassandra的扩展非常简单:当集群负载增加时,添加新的节点即可,而无需对已有的节点进行调整。机制,将数据暂时存储在其他节点上。当故障节点恢复时,这些节点会将暂存的数据发送回故障节点,确保最终的一致性。格式存储数据,当新的SSTable生成时,旧的数据不会被立即删除,而是通过压缩和合并(Compaction)机制来维护数据的高效存储和查询性能。通过合理调整一致性级别,并通过节点的无缝扩展,Cassandra能够在性能、可用性和一致性之间找到最佳平衡,满足不同应用场景下的需求。原创 2024-10-15 09:30:00 · 1702 阅读 · 0 评论 -
OceanBase 从架构到实战应用的技术探索
OceanBase 是蚂蚁集团自主研发的一款分布式关系型数据库,专为应对金融级别的高并发、高可用性需求而设计。它不仅支持强一致性事务处理,还具备高扩展性,能够应对大规模的数据存储和高频率的查询请求。作为一款新型数据库,OceanBase 具有高容错性和稳定性,同时能够在多种复杂的业务场景中提供低延迟的数据访问服务。OceanBase 的核心架构采用了分布式设计,数据通过分片(Sharding)技术进行存储和管理。原创 2024-10-14 13:22:38 · 1627 阅读 · 1 评论 -
深入理解 QPS、TPS、RT 和吞吐量的关系与应用
在现代的高并发系统和分布式架构中,性能是决定用户体验和系统稳定性的关键因素。无论是电商平台、金融交易系统,还是实时数据处理平台,系统在处理大量并发请求时,能否维持高效、稳定的运行,直接关系到业务的成败。在系统性能评估和优化过程中,和吞吐量(Throughput)是衡量系统处理能力的重要指标。这些指标为系统优化提供了明确的方向,帮助开发者和运维人员了解系统在不同场景下的表现,并根据实际需求调整系统资源和架构。QPS 表示系统每秒能够处理的查询请求数,通常用于衡量一个服务或应用的负载能力。原创 2024-10-08 08:30:00 · 3856 阅读 · 0 评论 -
KEFK 架构实时数据处理
在大数据和实时数据分析的领域,构建高效、低延迟的数据处理架构至关重要。KEFK 架构是应对这些挑战的一种现代化技术栈,结合了分布式消息系统、实时流处理引擎、搜索引擎和数据可视化工具。本文将从 KEFK 架构的概念、优势及其与传统数据处理架构的对比进行详细介绍,帮助读者理解它在当今数据密集型应用中的重要作用。Kafka:一个高吞吐量的分布式流处理平台,负责数据流的收集、处理和传输,确保数据以低延迟方式传递。:一个分布式搜索和分析引擎,专门用于高效存储、检索和分析大规模的日志、文本或时间序列数据。原创 2024-10-08 09:45:00 · 1138 阅读 · 0 评论 -
Redisearch 入门指南构建高性能搜索应用
Redisearch 是一个强大的全文搜索引擎,基于流行的 Redis 数据库构建,专为高效的数据检索而设计。它结合了 Redis 的快速存储能力和搜索引擎的复杂查询功能,使得开发者能够在海量数据中实现实时搜索体验。Redisearch 支持丰富的特性,包括模糊匹配、布尔搜索、聚合、地理位置查询等,极大地增强了搜索的灵活性和准确性。这使其在电商、内容管理、社交平台等领域得到了广泛应用。原创 2024-09-25 13:25:22 · 2786 阅读 · 3 评论 -
利用 Flink CDC 实现实时数据同步与分析
Flink CDC(Change Data Capture)是一种用于实时捕获和处理数据库中数据变更的技术。它通过监控数据库的变更事件,将这些事件转化为流式数据,使得数据处理系统(如 Apache Flink)能够以流的方式实时处理和分析数据。Flink CDC 支持多种数据库(如 MySQL、PostgreSQL、Oracle 等),并利用增量数据捕获的机制,确保系统在高并发情况下依然能够高效运行。原创 2024-09-25 11:59:15 · 3436 阅读 · 0 评论 -
TopK算法在大数据重复数据分析中的应用与挑战
在当今信息爆炸的时代,数据已成为企业和组织决策的重要依据。数据分析能够帮助识别趋势、优化流程并提升客户体验。通过对海量数据的深入分析,组织可以获取更具洞察力的信息,从而做出明智的决策,增强竞争力。TopK分析是一种数据处理技术,用于从海量数据中提取出前K个最重要或最相关的数据项。搜索引擎:返回与查询最相关的前K个结果。推荐系统:为用户推荐最受欢迎的商品或内容。数据统计:展示最常见的用户行为或特征。TopK分析的高效性在于,它不需要处理整个数据集,而是专注于关键数据点,从而提升处理速度和效率。原创 2024-09-30 09:45:00 · 1854 阅读 · 0 评论 -
最新版Flink CDC MySQL同步MySQL(一)
Flink CDC 是Apache Flink ®的一组源连接器,使用变更数据捕获 (CDC) 从不同数据库中获取变更。Apache Flink 的 CDC Connectors集成 Debezium 作为捕获数据更改的引擎。所以它可以充分发挥 Debezium 的能力。原创 2023-07-05 15:29:42 · 17609 阅读 · 2 评论 -
最新版Flink CDC MySQL同步Elasticsearch(一)
(需要自行进行构建编译,笔者构建的已经上次至次博客。需要可以进行下载,csdn需要积分下载,无法设置免费的,需要免费版可以直接联系笔者)首先我们要基于Flink CDC MySQL同步MySQL的环境基础上(flink-1.17.1、Java8、MySQL8)搭建。,笔者的Flink CDC MySQL同步Elasticsearch第一篇讲解完毕,希望能帮助到搭建。笔者已经搭建好环境,这里不做具体演示了,如果需要Es的搭建教程情况笔者其他博客。:这是笔者遇到的问题,具体问题具体解决即可。原创 2023-07-06 15:25:09 · 12613 阅读 · 5 评论 -
Greenplum数据库全面解析
为了满足企业的大规模数据处理需求,项目团队决定使用Greenplum作为核心的数据仓库平台,主要因为其强大的并行处理能力和与大数据生态的集成能力。Greenplum作为数据仓库的核心:处理来自不同数据源的数据,进行批量数据导入、清洗和转换。Kafka用于实时数据流处理:收集来自线上商城和门店的实时交易数据,并通过外部表将数据实时加载到Greenplum中进行分析。Hadoop用于历史数据存储:使用HDFS作为冷数据的存储,Greenplum通过外部表对接HDFS中的历史数据,减少系统的存储压力。原创 2024-09-23 09:30:00 · 3047 阅读 · 0 评论 -
数据仓库:构建企业智能化决策的基石
数据仓库的构建过程中,企业可以通过一系列先进的技术工具来完成数据的存储、处理与展示。以下内容在详细介绍各层次概念的基础上,增加了相应的技术栈工具,为实践中的选型提供指导。数据仓库集成了企业中来自不同系统的业务数据,通过规范化处理,确保数据的一致性、完整性和时效性,帮助企业形成可靠的数据基础。通过整合和管理企业的海量数据,数据仓库提供了可靠的决策支持环境。技术栈的选择至关重要,企业应根据数据量、查询复杂度、实时性需求等因素,选择适合的工具构建数据仓库。原创 2024-09-22 09:00:00 · 991 阅读 · 0 评论 -
Neo4j技术指南
数据模型:使用表、行和列来表示数据,数据之间的关系通过外键和JOIN操作来实现。使用节点和关系直接表示实体和实体之间的关联,数据模型更贴近真实世界的关系网络。查询性能:在处理复杂的关联查询时,随着数据量和关系层级的增加,JOIN操作的性能会显著下降。由于关系被直接存储,查询复杂关系时性能表现稳定,高效地支持深度关系遍历。扩展性:垂直扩展为主,受限于单机性能,水平扩展复杂且成本高。更易于水平扩展,能够更好地适应大规模数据和高并发的应用场景。语法特点:声明式查询。原创 2024-09-21 10:00:00 · 1635 阅读 · 0 评论 -
Apache Paimon基础讲解
Apache Paimon是一款高效的分布式数据存储与处理框架,旨在为大规模数据处理提供一个灵活且高性能的解决方案。它集成了实时流处理和批处理的优势,支持ACID事务、强一致性和高可用性,能够在复杂的数据环境中高效地进行数据操作。Apache Paimon作为新一代的分布式数据处理与存储框架,通过集成实时处理与批处理的优势,为大规模数据处理提供了一个高效、可靠的解决方案。本文详细介绍了Paimon的架构、安装、配置、使用及优化策略,希望能够帮助你更好地理解和应用Paimon。原创 2024-09-21 09:00:00 · 1966 阅读 · 0 评论 -
Apache Iceberg构建高性能数据湖
其创新性的元数据管理、灵活的存储格式支持以及高效的读写优化,使得Iceberg能够在处理海量数据时仍然保持卓越的性能和可靠性。Iceberg项目在开源后迅速引起了业界的关注。它不仅提供了灵活的Schema和分区管理,还通过高效的元数据机制和事务支持,确保了数据的一致性和查询性能。它不仅提供了灵活的Schema和分区管理,还通过高效的元数据机制和事务支持,确保了数据的一致性和查询性能。无论是基本的表操作、数据读写,还是高级的Schema演化和分区调整,Iceberg都提供了灵活且高效的方式来管理您的数据湖。原创 2024-09-20 09:30:00 · 1543 阅读 · 0 评论 -
深入解析 Apache Doris架构、应用场景与最佳实践
Apache Doris 是一款现代化的 MPP(Massively Parallel Processing)数据库,专注于解决大规模数据分析和实时查询的需求。它最初源自百度的 Palo 项目,随后贡献给了 Apache 基金会,并在开源社区的共同努力下不断演进。Doris 的设计目标是提供高效、简洁、易于使用的分析型数据库,能够在海量数据下进行快速响应的查询处理,尤其适用于数据仓库、BI 分析、以及实时数据处理场景。Doris 的核心优势之一在于其简化的架构和无缝的数据处理能力。原创 2024-09-19 09:00:00 · 3516 阅读 · 0 评论 -
深入解析ElasticSearch从基础概念到性能优化指南
在前面的章节中,我们系统地探讨了ElasticSearch的基础知识、查询优化、性能调优以及实战案例,旨在帮助你更好地理解并运用ElasticSearch来构建高效的搜索和分析系统。在本节中,我们将对主要的内容进行回顾,并展望ElasticSearch未来的发展方向及其在现代技术中的作用。原创 2024-09-18 08:45:00 · 1250 阅读 · 0 评论 -
Hadoop 技术详解:架构、应用与未来发展
随着互联网的快速发展,数据量呈现爆炸式增长,传统的集中式计算和存储方式无法有效应对这些大规模数据的处理需求。为了解决这一问题,Google 在 2003 年发布了三篇具有革命性的论文:《Google File System》(GFS)、《MapReduce: Simplified Data Processing on Large Clusters》和《Bigtable: A Distributed Storage System for Structured Data》。原创 2024-09-16 09:00:00 · 3778 阅读 · 0 评论 -
深入理解 ClickHouse 的性能调优与最佳实践
ClickHouse是一款由 Yandex 开发的开源列式数据库,专为在线分析处理(OLAP)场景设计。它以极高的查询性能著称,尤其适用于大规模数据的快速聚合和分析。自发布以来,ClickHouse 在多个行业中得到了广泛应用,例如日志分析、监控系统、用户行为分析、广告监控等。ClickHouse 的核心优势在于其列式存储架构高效的数据压缩、以及分布式处理能力。这些特性使得它能够在处理 TB 甚至 PB 级别的大数据时,依然保持快速的响应时间。原创 2024-09-17 09:15:00 · 2669 阅读 · 0 评论 -
ClickHouse 与 Quickwit 集成实现高效查询
在当今大数据分析领域,ClickHouse作为一款高性能的列式数据库,以其出色的查询速度和对大规模数据的处理能力,广泛应用于在线分析处理 (OLAP) 场景。ClickHouse 的列式存储和并行计算能力使得它在处理结构化数据查询时极具优势,尤其是在对日志、指标、事件等数据进行统计分析时表现突出。然而,在面对全文检索(特别是针对非结构化数据的复杂查询)时,ClickHouse 原生的功能支持有限。比如,涉及文本内容的深度搜索(如关键词搜索、模糊匹配等)可能无法充分发挥 ClickHouse 的优势。原创 2024-09-18 08:45:00 · 1266 阅读 · 1 评论 -
Superset 使用指南之优化数据可视化性能与扩展
Apache Superset 是一个开源、现代化的数据可视化和数据探索平台。它通过提供直观的用户界面,使用户能够轻松创建复杂的图表和仪表板,探索海量数据,同时避免传统商业智能(BI)工具的复杂性和高成本。作为一个高度可扩展的 BI 工具,Superset 支持与多个数据源的集成,并且能够处理大规模的数据库查询,帮助用户快速从数据中提取价值。除了默认角色,管理员还可以创建自定义角色,以满足特定业务需求。通过自定义角色,管理员可以灵活地配置每个用户组的权限,使其适应不同的工作流程和数据访问需求。原创 2024-09-18 09:15:00 · 3476 阅读 · 0 评论 -
Ubuntu安装kibana
安装cd /homewget https://artifacts.elastic.co/downloads/kibana/kibana-7.16.3-linux-x86_64.tar.gztar -zxvf kibana-7.16.3-linux-x86_64.tar.gz -C /datamv kibana-7.16.3-linux-x86_64 kibanauseradd kibanachown -R kibana:kibana kibanacd /data/kibanasudo apt原创 2022-01-26 21:46:32 · 5620 阅读 · 0 评论 -
深入解析 Apache Kylin
Apache Kylin 是一个开源的分布式分析引擎,主要为大数据场景下的 OLAP(Online Analytical Processing)提供解决方案。它可以在超大规模数据集上实现亚秒级的查询响应,极大地提升了基于 Hadoop 和其他大数据平台的查询性能。原创 2024-09-18 09:00:00 · 1441 阅读 · 0 评论