2024年大数据最全【大数据】当人们在说大数据的时候到底在说什么?,2024年最新成功拿下猿辅导+斗鱼+滴滴+字节+腾讯offer

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

说个题外话,最近发现平时跟人聊天,手机也会根据你的聊天内容来推送你想要的商品。 比如上次在办公室聊到了信用卡,第二天就有银行推荐办卡的短信发过来。

那什么是大数据呢?

维基百科有个定义: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取,管理和处理的数据集合。

  • 数据量大,不管是采集,存储,计算的数据都很大,以PB,EB ,ZB为单位

  • 类型繁多,比如日志,音频,图片,视频,地理位置

  • 速度极快,时效高。 比如推荐系统

  • 价值密度低,商业价值高,比如数据挖掘

想想抖音每天有多少视频上传,微博,微信每天有多少人转发小视频,发图片。

传统的数据处理和大数据技术互为补充

在这里插入图片描述

服务器的三大体系

从系统架构来看,目前商用服务器大体可以分为三类:

  • SMP :对称多处理器结构

  • NUMA: 非一致性存储访问结构

  • MPP 海量并行处理结构

1. SMP (Symmetric Multi-processor)

称多处理器结构,是指服务器中多个CPU对称工作,无主次或从属关系。各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O或者添加磁盘存储

SMP 的CPU利用率最好的情况是2-4个CPU

2. NUMA(Non-Uniform Memory Access)

由于SMP在扩展能力上的限制,人们开始探究如何进行有效地扩展从而构建大型系统的技术,NUMA就是这种努力下的结果之一。利用NUMA技术,可以把几十个CPU(甚至上百个CPU)组合在一个服务器内

在这里插入图片描述

NUMA使用cpu模块,每个cpu模块通常由4个组成,并且有独立的本地内存及IO槽口,使性能更佳。 但缺点是访问远地内存所造成的延迟远远大于本地内存,增加CPU,并不能线性增加系统性能。

3. MPP (Massive Parallel Processing)

MPP 由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统

目前的技术可实现512个节点互联,数千个CPU ,每个节点都可以运行自己的操作系统和数据库。

数据处理系统架构的演进

SMP --SMP+MPP混合 --MPP – hadoop

大数据时代需要关注的几个点:

  • 容量: 海量数据不可能单机存储,为确保数据稳定和安全,还需要存多个副本,所以需要分布式存储

  • 性能: 数据量大,单机很难完成单独运算,只能使用分而治之的思想,大量的计算节点来分担运算量

  • 成本: 使用分布式系统,可以使用通用硬件来解决线性扩展,同时性能接近线性提升。

大数据运维工作职责
  • 集群管理: hadoop,hbase ,spark kafak,redis

  • 故障处理: 商用硬件故障及其他故障

  • 变更处理,配置管理和发布管理

  • 容量管理: 存储空间,运行链接数等

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值