大数据
文章平均质量分 82
大数据
翰林小院
翰林小院 – 记录是一种好习惯–QQ交流群:545713160
关注JAVA、Hadoop、Storm、Spark、Redis、Linux、大数据、分布式、架构、算法、性能调优、实战经验,记录工作中的点点滴滴,整理其中的干货知识。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大数据专栏】流式处理框架-Apache Fink
《Apache Flink流处理框架核心技术与应用实践》摘要:Flink是一个分布式流处理框架,支持批流一体化处理,具有精确状态管理和事件时间支持等特性。教程涵盖Flink核心知识体系,包括编程模型、API使用、Connectors集成及监控调优。通过电商实时ETL、网络质量监控等案例,展示Flink在事件驱动型应用、数据分析管道等场景的实践价值。学习需具备Java/Scala基础,结合内存计算和检查点机制,Flink能实现TB级状态管理,保证低延迟高吞吐处理。原创 2025-09-12 15:55:25 · 1106 阅读 · 0 评论 -
【大数据专栏】如何验证数据质量验证
数据质量验证涉及准确性、完整性、一致性、唯一性、及时性和有效性六大维度,通过需求驱动、规则驱动、统计分析、样本抽查和比对验证等方法进行检测。主流工具包括Qualitis、Datavines和DataCleaner,它们在开源许可、产品定位、规则支持、数据源连接和执行方式等方面各有特点。Qualitis深度集成WeDataSphere生态,提供平台化质量管控;Datavines强调可观测性与数据目录;DataCleaner则侧重数据分析和清洗。三者在告警机制、调度集成和异常数据处理上存在差异,企业可根据实际需原创 2025-09-08 16:05:58 · 762 阅读 · 0 评论 -
【大数据专栏】大数据框架演进过程
大数据架构演进:从Hadoop到湖仓一体 Hadoop逐渐成为遗留系统,仅作为数据湖基座用于批处理。新一代架构以MPP+存算分离为核心,云原生设计(如Snowflake、Databricks)实现计算弹性、低成本存储和湖仓一体化。相比传统存算耦合架构,存算分离提升资源利用率,支持多云协同,并融合数据湖的灵活性与数仓的高性能。当前趋势聚焦统一存储层(Delta/Iceberg)、实时分析及AI协同,推动企业数字化转型。原创 2025-09-05 15:30:30 · 819 阅读 · 0 评论 -
【大数据专栏】大数据框架-Apache Druid Overview
Druid采用分布式云友好架构,支持独立配置和扩展服务,具有高容错性。其核心服务包括:Coordinator管理数据可用性,Overlord控制数据摄取,Broker处理查询,Router路由请求,Historical存储数据,MiddleManager/Peon负责数据摄取,Indexer作为可选任务执行系统。组件故障不会立即影响其他服务,确保系统稳定性。这种模块化设计提供了灵活的集群管理能力。原创 2025-09-05 15:02:21 · 812 阅读 · 0 评论 -
【ElasticSearch】ElasticSearch Overview
回答这个问题前,先看下什么是正向索引:正向索引建立的关系是由文档->关键词的,也就是给定一篇文档,记录关键词在文档中出现的位置,通过文档来关联关键词的,这种方式在数据量小的情况下完全OK,但互联网这片大海中,文档的量及是宇宙级的,这种方式要扫描的文档驴辈子都扫不完。Lucene的原理我说白话一点,就是先把被搜索内容按照一定规则进行分词并存储,生成一个目录,然后把你输入的搜索关键词也进行分词,然后与前面生成的目录中的关键词进行匹配,如果匹配到,就可以快速定位到该被搜索内容的存储位置,从而实现搜索。原创 2025-08-20 16:36:00 · 963 阅读 · 0 评论 -
Druid、ClickHouse、Doris、StarRocks 的区别与分析
本文对比分析了四种主流OLAP引擎Druid、ClickHouse、Doris和StarRocks的核心特性。Druid擅长实时时序数据分析,ClickHouse以单表查询性能著称,Doris提供均衡易用的分析能力,StarRocks则在复杂查询和实时更新方面表现突出。四者均采用列式存储和分布式架构,但数据模型、查询性能、更新机制和存储方式存在差异。选择时需考量业务场景:Druid适合实时监控,ClickHouse适用于日志分析,Doris满足企业级报表需求,StarRocks则胜任极速分析平台建设。技术选原创 2025-05-30 09:26:26 · 1208 阅读 · 0 评论 -
【大数据专栏】大数据中的基本概念
数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得Insight。数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。原创 2025-03-31 16:31:13 · 533 阅读 · 0 评论 -
【大数据专栏】大数据架构
Apache Hive是一款由Facebook实现并开源建立在Hladoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。presto是一个交互式查询引擎,是Facebook开源的MPP架构的OLAP查询引擎,可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。原创 2025-04-03 13:17:24 · 624 阅读 · 0 评论 -
【大数据专栏】大数据处理中列式数据库
在行式数据库中,尽管上述只处理了少数现有列,但系统仍然需要将来自其他现有列的数据从磁盘加载到内存中。原因是数据以称为块的块形式存储在磁盘上(通常为固定大小,例如 4 KB 或 8 KB)。块是从磁盘读取到内存的最小数据单位。当应用程序或数据库请求数据时,操作系统的磁盘 I/O 子系统会从磁盘读取所需的块。原创 2025-04-15 16:43:48 · 268 阅读 · 0 评论 -
【大数据专栏】大数据中的数据采集
原创 2025-04-16 13:58:58 · 709 阅读 · 0 评论 -
【大数据专栏】大数据框架-Apache Druid 架构说明
Apache Druid 是一个集时间序列数据库、数据仓库和全文检索系统特点于一体的分析性数据平台。可以从消息总线流式获取数据(如 Kafka,Amazon Kinesis),或从数据湖批量加载文件(如 HDFS,Amazon S3 和其他同类数据源)。Druid 为 Clickstream,APM(应用性能管理系统),supply chain(供应链),网络遥测,数字营销和其他事件驱动形式的场景解锁了新的查询方式和工作流。Druid 专为实时和历史数据的快速临时查询而构建。原创 2025-04-16 11:27:39 · 837 阅读 · 0 评论 -
【大数据专栏】大数据框架-部署Apache Druid
Coordinator 服务主要负责区段管理和分发。更具体地说, Coordinator 服务与 Historical 服务通信,以根据配置加载或删除 Segment。Coordinator 负责加载新 Segment、删除过时的 Segment、确保 Segment 被正确(配置)次数“复制”(即加载到多个不同的 Historical 节点上)以及移动 (“平衡”)段,以保持后者均匀加载。druid元数据存储在pgsql中。ZK负责集群状态和一致性。原创 2025-04-16 14:18:33 · 339 阅读 · 0 评论 -
【大数据专栏】大数据框架-Apache Druid 快速开始
至少需要一台6G的服务器,在此章节你将会1.部署一个Durid服务并启动服务2.使用SQL提取数据,并查询。原创 2025-04-16 14:43:10 · 232 阅读 · 0 评论
分享