既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
说个题外话,最近发现平时跟人聊天,手机也会根据你的聊天内容来推送你想要的商品。 比如上次在办公室聊到了信用卡,第二天就有银行推荐办卡的短信发过来。
那什么是大数据呢?
维基百科有个定义: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取,管理和处理的数据集合。
-
数据量大,不管是采集,存储,计算的数据都很大,以PB,EB ,ZB为单位
-
类型繁多,比如日志,音频,图片,视频,地理位置
-
速度极快,时效高。 比如推荐系统
-
价值密度低,商业价值高,比如数据挖掘
想想抖音每天有多少视频上传,微博,微信每天有多少人转发小视频,发图片。
传统的数据处理和大数据技术互为补充
服务器的三大体系
从系统架构来看,目前商用服务器大体可以分为三类:
-
SMP :对称多处理器结构
-
NUMA: 非一致性存储访问结构
-
MPP 海量并行处理结构
1. SMP (Symmetric Multi-processor)
称多处理器结构,是指服务器中多个CPU对称工作,无主次或从属关系。各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O或者添加磁盘存储
SMP 的CPU利用率最好的情况是2-4个CPU
2. NUMA(Non-Uniform Memory Access)
由于SMP在扩展能力上的限制,人们开始探究如何进行有效地扩展从而构建大型系统的技术,NUMA就是这种努力下的结果之一。利用NUMA技术,可以把几十个CPU(甚至上百个CPU)组合在一个服务器内
NUMA使用cpu模块,每个cpu模块通常由4个组成,并且有独立的本地内存及IO槽口,使性能更佳。 但缺点是访问远地内存所造成的延迟远远大于本地内存,增加CPU,并不能线性增加系统性能。
3. MPP (Massive Parallel Processing)
MPP 由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统
目前的技术可实现512个节点互联,数千个CPU ,每个节点都可以运行自己的操作系统和数据库。
数据处理系统架构的演进
SMP --SMP+MPP混合 --MPP – hadoop
大数据时代需要关注的几个点:
-
容量: 海量数据不可能单机存储,为确保数据稳定和安全,还需要存多个副本,所以需要分布式存储
-
性能: 数据量大,单机很难完成单独运算,只能使用分而治之的思想,大量的计算节点来分担运算量
-
成本: 使用分布式系统,可以使用通用硬件来解决线性扩展,同时性能接近线性提升。
大数据运维工作职责
-
集群管理: hadoop,hbase ,spark kafak,redis
-
故障处理: 商用硬件故障及其他故障
-
变更处理,配置管理和发布管理
-
容量管理: 存储空间,运行链接数等
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新