1. 什么是大数据?
2002 大数据提出 美国引入。---麦肯锡报告。
维克托·迈尔-舍恩伯格---大数据之父
4V特征:
即
Volume(数据量大):PB级
Variety(数据多样性):文本、图像、视频、音频等
Velocity(输入和处理速度快):流式数据
Value(价值密度低):
## 积累很多的数据才能发掘大数据隐含的意义。 ##
## 只要能发挥和挖掘数据隐藏的价值,不用纠结与数据量大小 ##
大数据核心问题 ##存储、计算和分析##----通过组件(计算框架)解决了。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和
处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优
化能力的海量、高增长率和多样化的信息资产。
传统的数据处理技术已经无法胜任,需要催生新的技术。一套用来处理海量数据的软件
工具应运而生,这就是大数据!
大数据=数据处理技术
大数据并行化处理数据,Google2004(分而治之),hadoop产生(Doug Cutting)
数据量到达一定程度的时候存储和计算就成了问题?需要用新的技术解决
处理海量数据的核心技术:
海量数据的存储:分布式
海量数据的计算:分布式
分布式的复杂程度比单机版高很多!运用多台机器一起工作解决问题。
存储和计算成熟的框架:
存储:
HDFS-》分布式文件系统(hadoop的存储框架)
HBASE-》分布式数据库系统(对HDFS的二次封装)
KAFKA-》分布式消息缓存系统
计算框架:
MAPREDUCE-》离线计算框架(hadoop的计算框架)
SPARK-》离线批处理/实时流式计算的计算框架 ->相当于MR的二次封装
STORM-》实时流式计算
辅助类工具:
HIVE-》数据仓库工具
FLUME-》数据采集
SQOOP-》数据迁移
....
2.大数据应用场景
典型应用:公司运营情况
CNZZ 数据专家
友盟
电商推荐系统:淘宝、京东、苏宁。。。
大量基于算法模型的运算,的出来各类推荐结论...
广告推送系统:基于海量互联网用户的各类数据(数据共享)
3、OLTP和OLAP
(1)OLTP:Online Transaction Processing 联机事务处理:(insert update、delete)
ACID:所有的数据可追溯。-------传统关系型数据库(Oracle Mysql Postgresql等)
(2)OLAP:Online Analytic Processing 联机分析处理。
真正生产中是二者的结合:OLTP(后台操作 前台展示 数据设计等)+OLAP(Hive Hbase Spark等)。
4、Google的基本思想:三篇论文** 重点
(1)GFS: Google File System----HDFS —解决存储
a、数据库太贵。主要是为了解决 google搜索内容的存储问题。–造价低 易扩展。
b、倒排索引(Reverted Index):
int arry【】={1,2,3,4}
索引不一定提高查询速度。—key value
c、没有公布源码,----Hadoop之父 Doug Cutting
HDFS 默认文件块大小 128M(Hadoop 2.X) 64M(Hadoop 1.x),默认3副本。
(2)MapReduce:分布计算模型
PageRank
(3)BigTable:大表
对HDFS进行封装和二次开发,提高查询效率。把所有数据存入一张表中,通过牺牲空间,换取时间
5.什么是Hadoop?
http://hadoop.apache.org/
Apache?Hadoop?项目开发了用于可靠,可扩展的分布式计算的开源软件。
Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集
群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每
台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,
而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供
高可用性服务,每个计算机都可能容易出现故障。
用户可以在不了解分布式的底层细节而开发分布式程序。
用户需要充分的利用集群的为例进行高效的运算和存储。
Hadoop中三个核心组件:
分布式文件系统:HDFS - 实现存储在多台服务器上
分布式运算编程框架:MapReduce - 实现在很多台机器的分布式并行计算
分布式资源调度平台:Yarn - 帮我们调度大量的mapreduce程序的,并且合理分配运算资料
6.HDFS的运行机制
如何实现分布式存储?
总结:机制->用户的文件会被切块后存储在多台datanode服务器当中,
并且每个文件在整个集群当中存放多个副本,可以自己指定副本数据。
HDFS:对用户统一的目录,存储时会把文件切分为若干个文件块存储,在不同的
datanode服务器当中。
用户文件可以存储多个副本,以增强数据的安全性。
用户存储的块信息存储的位置在namenode当中。
7.HDFS的体系架构
HDFS 副本数可以再 hdfs-site.xml中修改。不超过机器个数 建议不超过3.
/root/hadoop
HDFS=Namenode(主节点 名称节点)+SecondaryNameNode()+datanode(数据节点)
8、MR编程模型
包含两个阶段 key value 的设计是关键。
二、 Linux基础
1.Linux的目录结构
bin:存放二进制的可执行文件
sbin:存放二进制的可执行文件,只有root才能访问
etc:存放系统配置文件
usr:用于存放共享的系统资源(约定俗称)
home:存放用户文件的根目录
root:超级用户的目录
dev:用于存放设备文件
lib:存放根本文件系统中的程序运行所需要的共享库和内核模块
mnt:系统管理员安装临时系统的安装点
boot:存放于系统引导时使用的文件
tmp:用于存放各种临时文件
var:用于存放运行时需要改变数据的文件
2.Linux常用命令行
ll/ls:查看当前目录下的所有文件
cd / :进入根目录
cd /usr/games : 进入子路径
cd .. : 退出到上一层目录
pwd:当前所在的路径
cd -:切换上一个所在的目录
3:远程连接(工具)
CRT/xshell/putty
CRT的sftp传输文件用法看下面这个:
https://www.cnblogs.com/xwdreamer/p/3673397.html
firewall-cmd --state 显示centOS7防火墙状态
systemctl stop firewalld 关闭防火墙
systemctl disable firewalld 禁止开机自启动
本文深入探讨大数据的概念、4V特征及大数据技术在各领域的应用,详细讲解Hadoop框架,包括其分布式文件系统HDFS、MapReduce计算模型及资源调度平台Yarn的工作原理,适合初学者和从业者全面理解大数据生态。
1669

被折叠的 条评论
为什么被折叠?



