大数据数仓项目技术选型

最新推荐文章于 2024-09-30 00:01:30 发布

weixin_45748431

最新推荐文章于 2024-09-30 00:01:30 发布

阅读量693

点赞数 1

文章标签：数据仓库

本文链接：https://blog.youkuaiyun.com/weixin_45748431/article/details/107617635

版权

技术选型主要考虑因素

数据量大小，业务需求，行业内经验，技术成熟度，开发维护成本，总成本预算。

数据采集传输：

Flume：负责处理文件，读取文件
Kafka:负责缓冲
sqoop:从mysql直接导入数据

数据存储：

MySql:负责存储可视化的展示数据
HDFS:主要存储的是大数据中的数据，例hive
HBase:存储元数据
Redis:缓存

数据计算：

Hive：基于MapReduce计算，速度相对较慢
Tez:完全基于内存，相对hive快了很多
Spark：速度是hive的100倍。可以进行多表查询
Flink：可以进行多表查询

数据查询：

Presto:基于内存快速查询
Bruid：实时查询跟批处理的结合，但具有局限性只能处理单表
Impala:基于内存快速查询
Kylin：可以进行预计算，将计算的结果存到HBase中，可以进行多维度的查询

数据可视化：

Echarts:免费但开发起来有一定难度，需要自己编写java代码，甚至有些图形需要自己绘画，对接相对麻烦
Superset:免费简单但可选图像不多，只有简单的柱状图饼状图折线图
QuickBI:收费
BataV：收费

任务调度：

Azkaban
Oozie:配套cdh进行使用

集群监控：

 Zabbix

元数据管理：

 Atlas

数据质量监控：

Griffin

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_45748431

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据领域数据产品的技术选型与架构设计案例

大数据洞察的博客

04-22

1085

本文旨在解决数据产品建设中技术栈混乱、架构扩展性不足、成本失控等核心问题，构建覆盖技术选型决策树、架构设计模式、实施路线图的完整方法论。数据产品技术架构的五层核心体系（采集层→存储层→处理层→分析层→应用层）主流技术栈的对比评估模型（计算引擎/存储引擎/治理工具/可视化平台）行业典型场景的架构适配方案（离线批处理/实时流处理/交互式分析/机器学习赋能）核心概念：定义数据产品技术架构的核心组件及相互关系选型方法论：建立技术评估矩阵，解析关键决策因子架构设计模式。

大数据FLINK实时数仓项目实战

悦分享

10-06

7979

普通的实时计算优先考虑时效性，所以从数据源采集经过实时计算直接得到结果。如此做时效性更好，但是弊端是由于计算过程中的中间结果没有沉淀下来，所以当面对大量实时需求的时候，计算的复用性较差，开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念，对数据处理流程进行规划、分层，目的是提高数据的复用性。原始数据，日志和业务数据。根据数据对象为单位进行分流，比如订单、页面访问等等。维度数据。对于部分数据对象进行进一步加工，比如独立访问、跳出行为，也可以和维度进行关联，形成宽表，依旧是明细数据。根据某个主题将

参与评论您还未登录，请先登录后发表或查看评论

大数据数仓项目总结（一）需求、技术选型、框架版本、服务器、集群规模

PassionZheng的博客

06-04

5380

文章目录一.需求描述二.架构设计三.数据采集模块搭建四. 一.需求描述 数据仓库( Data Waehouse ) 是为企业所有决策制定过程，提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本、提高产品质量等。 数据仓库，并不是数据的最终目的地，而是为数据最终的目的地做好准备。这些准备包括对数据的：清洗，转义，分类，重组，合并，拆分，统计等等。一、...

数据仓库技术选型

想练武，就得下功夫

10-22

1380

文章目录数据采集传输数据存储数据计算数据查询数据可视化任务调度集群监控元数据管理权限管理数据采集传输 Flume Kafka Sqoop Logstash DataX 数据存储 MySQL HDFS HBase Redis MongoDB 数据计算 Hive Tez Spark Flink Storm 数据查询 Presto Kylin Impala Druid ClickHouse Doris 数据可视化 Echarts Superset QuickBI DataV 任务调度 A

数据仓库技术选型（三）

lhxsir的博客

08-20

1079

一个合理的架构的关键是能够在以下方面取得平衡：  成本  满足需求（梳理业务和响应的应用场景）  技术可持续（需要处理的数据源的种类、类型、数据量）  灵活性  稳定性  可扩展性 flume 不能同步到ES logstash 占用内存高，比较常用 fliebeat 不依赖java版本，对业务侵入少，占用内存低技术架构： 数据仓库：负责数据资产建设和管理，数据治理数据开发：数据分析数据平台建设： ...

数仓技术选型

qq_45972323的博客

05-04

519

数据量大小，业务需求，行业内经验，技术成熟度，开发维护成本，学习成本，总成本预算。集群监控：Zabbix，Prometheus。权限管理：Ranger，Sentry。元数据管理：Atlas。

大数据平台技术选型

youziguo的专栏

06-06

1308

大数据平台的技术选型是一个复杂的过程，需要考虑多种因素，如数据量、数据类型、处理速度、成本预算、团队技术能力以及未来扩展性等。

带你了解大数据数仓架构与项目部署环境

05-04

4613

千亿级数仓项目 # 总体介绍阶段一了解行业背景、了解项目背景，项目架构介绍、技术选型，项目环境（数据/硬件）介绍，项目ER图、项目需求介绍。基于项目需求实现查询功能（写SQL）或整理出查询流程阶段二学习、掌握kettle的使用、使用kettle将项目需求所需的数据在MYsql同步到Hive 使用sqoop,将剩余的数据在MYsql同步到Hive 阶段三学习数据仓库理论知...

尚硅谷大数据项目之电商数仓用户行为采集平台1

08-04

【尚硅谷大数据项目之电商数仓用户行为采集平台1】是一个综合性的教程，旨在教授如何构建一个电商领域的数据仓库，特别关注用户行为数据的采集。本项目涵盖了从数据仓库的基本概念到具体实施的各个阶段，包括项目...

大数据架构师选型必懂：大数据离线数仓开发框架详解与对比(hive、Spark SQL、Impala、Doris）

最新发布

大模型大数据攻城狮的专栏

09-30

886

Hive是基于Hadoop的一个数据仓库工具，它的出现为大数据处理领域带来了革命性的变革。Hive能够将结构化数据文件映射为数据库表，使得用户能够像操作关系数据库一样操作Hadoop中的数据。这一特性极大地降低了Hadoop的使用门槛，使得更多企业和组织能够利用Hadoop进行大规模数据处理和分析。在Hadoop生态系统中，Hive扮演着至关重要的角色。它为用户提供了一个熟悉且易于使用的SQL接口，使得用户能够在不离开Hadoop平台的情况下进行数据查询和分析。

大数据技术选型

weixin_43173012的博客

01-08

1788

数据仓库的概念 数据仓库的输入输出输入: 1.1 日志采集系统 1.2 业务系统数据库 1.3 爬虫系统等输出: 1.1.2 报表系统 1.1.3 用户画像 1.1.4 推荐系统 1.1.5 机器学习 1.1.6 风控系统项目的技术选型 数据的采集传输: Flume Kafka Sqoop Logstash DataX Flume:可同时做为数据的生产者和消费者,主要用来作为日志的采集工...

大数据平台技术框架选型分析

04-13

大数据平台技术框架选型分析，是硬件软件的选择，组件的选型

大数据智慧数字电商第一课实时数仓技术选型和架构设计

fegus的博客

04-28

2395

实时数仓第1天讲义学习目标理解实时数仓项目的基本需求、整体架构了解常用实施方案能够编写Canal客户端采集binlog消息理解google ProtoBuf序列化方式理解Canal采集原理实时计算应用场景及技术选型 实时计算在公司的用处公司内已经采用MR与spark之类的技术，做离线计算，为什么用实时计算？离线的伤痛就是数据出的太慢有对实时数据要求高的场景比如：滴滴的风控、淘宝双十一营销大屏、电商购物推荐、春晚的观众数统计实时计算技术选型 Spark streaming

数仓领域相关技术选型总结

luckcxy的专栏

03-04

596

数仓相关领域选型总结

实时数仓方案五花八门，实际落地如何选型和构建

数据一哥，公众号：数据社

06-13

6912

【作者介绍】王磊，阿里云 MVP，华院计算技术总监。著有：《图解 Spark 大数据快速分析实战》；《offer 来了：Java 面试核心知识点精讲（原理篇）》；《offer 来了：Java 面试核心知识点精讲（架构篇）》。编辑 | 韩楠约4,989 字 | 10 分钟阅读01文章概览（一至五）✦一、为何需要实时数仓架构二、数仓如何分层&各层用途三、数仓分层的必...

大数据计算技术选型

weixin_42466752的博客

07-18

350

优点：高度可扩展、内存计算、支持多种计算模型（批处理、流处理、机器学习等），比MapReduce更快速和灵活。使用场景：适用于实时数据处理、流式ETL、复杂事件处理、准实时分析等需要低延迟和状态管理的场景。使用场景：适用于离线批量处理、数据清洗、ETL（抽取、转换和加载）等需要大规模数据处理的场景。使用场景：适用于迭代式计算、实时流处理、交互式查询、机器学习等需要快速响应和灵活性的场景。使用场景：适用于实时流式处理、实时数据分析、复杂事件处理等需要低延迟和高吞吐量的场景。

[选型] 实时数仓之技术选型

fct2001140269的博客

12-07

3341

关于实时数仓的选型 ● 如果选择hbase，建议选择kudu ● 如果选择kudu, 还可以选择doris ● 如果选择doris，建议选择iceberg

大数据简单技术选型

m0_53842576的博客

02-27

122

离线 mapreduce，spark。

数据仓库选型建议

chuixue24的博客

06-19

408

可以发现在这样的诉求下类似于 Presto，Doris，ClickHouse 就很难满足这样的要求，而像 Hive，Spark 这类计算引擎依托于 Yarn 做资源管理，对于分布式任务的重试，调度，切换有着非常可靠的保证。一旦发生任务异常，例如网络抖动引起的任务失败，机器宕机引起的节点丢失，再次重试所消耗的时间几乎等于全新重新提交一个任务，在分布式任务的背景下，任务运行的时间越长，出现错误的概率越高，对于此类组件的使用业界最佳实践的建议也是不超过 30 分钟左右的查询使用这类引擎是比较合适的。

电商数仓项目：用户行为采集与技术选型详解

在大数据项目中的电商数仓...电商数仓项目的实施涉及数据采集、存储、处理、查询、监控与分析的全链条，技术选型和架构设计需综合考量数据规模、业务需求和技术成熟度等因素，以确保项目的稳定运行和高效数据分析能力。