
大数据架构师
文章平均质量分 85
培养架构思维,不断的培养架构思维
小枫@码
永远多做一步、多说一句正向的话、多做一件正向的事情
展开
-
数据平台:湖仓一体、流批一体、存算分离的核心问题
目前数据仓库存储的数据结构单一,只能存储结构化的数据,对于非结构化数据的存储需求,以及存储成本是数据仓库的主要问题,而非结构化数据存储在业务库,也造成数据不能相融和利用,为了解决非结构化数据的低成本的存储诞生了湖仓一体的技术架构。湖仓一体的技术架构是指将数据湖(Data Lake)和数据仓库(Data Warehouse)结合在一起,实现对各种类型的数据进行存储、管理和分析的一体化解决方案。原创 2024-02-07 14:39:38 · 1400 阅读 · 0 评论 -
如何通过Hive/tez与Hadoop的整合快速实现大数据开发
Hive是基于Hadoop的一个外围数据仓库分析组件,可以把Hive理解为一个数据仓库,但这和传统的数据库是有差别的。传统数据库是面向业务存储,比如 OA、ERP 等系统使用的数据库,而数据仓库是为分析数据而设计的。同时,数据仓库是在数据量巨大的情况下,为了进一步挖掘数据资源、为了企业决策需要而产生的,它不是所谓的 “大型数据库”。Hive 通过将结构化的数据文件映射到一张数据库表上,然后通过执行 SQL 语句实现查询功能。原创 2024-01-30 15:06:36 · 1395 阅读 · 0 评论 -
大数据平台的硬件规划、网络调优、架构设计、节点规划
编写机架配置文件 rack.data,内容如下:这里将三个节点分别放到三个不同的机柜中。然后还需要。原创 2024-01-20 10:46:01 · 1353 阅读 · 0 评论 -
如何做好技术选型
新技术、新理念的出现,自然有它的诱惑,慎重并不代表保守,技术总是在不断前进,拥抱变化本身没有问题,但是引入不成熟的技术看似能带来短期的收益,但是它的风险或者是后期的成本可能远远大于收益。至于一个技术框架该怎么用,它适用于什么场景,笔者建议可以直接阅读官方或对应的github上的文档,有需要时还可以阅读下关注点的源码,这样对正确的理解它,是很有必要的,毕竟官方发布的东西是相对权威的,其他地方的资料或许存在片面性,对大家的使用、理解存在一定的误导。只要你记住这六个字:“有需求,再引入”,就OK了。转载 2024-01-08 10:50:13 · 93 阅读 · 0 评论 -
大数据平台软硬件规划
假如业务系统数据量每天增量 50T,保留周期30天,那么HDFS存储容量为 50T * 30天 * 3副本 * 2倍(数据源 + 清洗加工) = 9000T = 8.79P假如每个机器的磁盘是4T * 10 = 40T,每台机器的可用存储容量为 40T * 0.75 = 30T,节点预估数量 = 9000T/30 = 300 节点,所以datanode的节点最小数量为300个。原创 2024-01-02 14:42:13 · 1358 阅读 · 0 评论 -
ES集群规划
在搭建正式的生产集群之前,充分做好硬件和服务器配置以及集群规划时重中之重。转载 2023-05-16 14:43:50 · 277 阅读 · 1 评论 -
详解Lambda和Kappa架构的区别
1、随着大数据的发展,人们逐渐对系统的实时性提出了要求,为了计算一些实时指标,就在原来离线数仓的基础上增加了一个实时计算的链路,并对数据源做流式改造(数据发送到消息队列),实时计算去订阅消息队列,直接完成指标增量的计算,推送到下游的数据服务器中去,由数据服务层完成离线&实时结果的合并。比如说,批处理层的每个任务都需要 1 个小时才能完成,而在这 1 个小时里,我们是无法获取批处理层中最新任务给出的数据视图的。所有在批处理层和加速层处理完的结果都输出存储在服务层中,并提供一直的数据视图。原创 2023-12-28 10:40:00 · 1730 阅读 · 0 评论