大数据

最新推荐文章于 2024-10-12 09:39:35 发布

原创最新推荐文章于 2024-10-12 09:39:35 发布 · 445 阅读

1 ·

CC 4.0 BY-SA版权

大数据：是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据是一种方法论:“一切都被记录，一切都被数字化，从数据中寻找需求，寻找知识，发掘价值”。

大数据技术：指从各种各样类型的数据中快速获得有价值信息的能力。

大数据的特点：数据体量巨大、数据类型繁多、价值密度低、产生和处理速度快

新的大数据处理平台：

开源：Hadoop、Spark（Apache）、Atorm（Twitter）、MongoDb

商用：IBMPureData、OracleExadata、SAP Hana、Teradata AsterData、EMC GreenPlum、HP Vertica

Hadoop的优势：

低成本基于来源软件，运行与通用硬件平台。

高扩展性在可用的计算机集簇间分配数据并完成计算任务，这些集簇可以方便的扩展到数以千计的节点中。

高效性在节点之间动态分配计算任务并保证各个节点的动态平衡，处理速度非常快。

高容错性自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop生态圈：

存储数据HDFS(Hadoop Distributed File System),运行在通用硬件上的分布式文件系统。具有高度容错性、高吞吐量的的特点。

处理数据MapReduce，它是一种编程模型，Map（映射）和Reduce（归约），它极大地方便了分布式并行编程，与hdfs的高度融合，它是基于java来进行编程的。

数据仓库工具Hive，处理结构化SQL查询功能，将sql语句解释为MapReduce编程进行数据的处理，只能进行结构化的查询。

Pig MapReduce之上的高级过程语言，查询大型的半结构化数据集，处理非结构化数据。

HBase（Hadoop Database）它是一个适用于非结构化数据存储的数据库，基于列存储，不同行可有不同数据列，保留数据多个时间版本。

Zookeeper 分布式应用程序协调服务提供一致性服务。

传统数据存储，分析处理
·RDBMS关系型数据库系统
EDW数据仓库
·针对结构化数据
集中式存储
集中式处理OLTP

大数据平台：
·HDFS
·Hadoop Distributed File System (分布式系统)
·建立在网络之上的软件系统
·运行在通用硬件上
·分布式文件系统
·高度容错性
·高吞吐量的
大数据处理数据
MapReduce
一种编程模型
"Map(映射)"和"Reduce(归约)"
极大地方便了分布式并行编程
与HDFS的高度融合

HBase

操作系统：Windows;Linux(一般用于服务器的系统);Mac OS;等

虚拟软件(虚拟机:Virtual Machine)，常用的虚拟软件：
VMware workstation
VirtualBox

Linux，基于Unix开发的系统;主要有RedHat;CentOS;Ubuntu;等都是基于Linux内核开发的系统
Linux安装(不同版本的官网地址):
VirtualBox(www.virtualbox.org)
CentOS(www.centos.org)
Ubuntu(www.ubuntu.com)
Fedora(https://getfedore.org/)

Linux周边配套软件
远程连接工具Xshell/SecureCRT
远程FTP工具FileZilla
远程文本编辑工具TextWrangler/Notepad++

Linux配置
主机名设置：/etc/sysconfig/network
主机名及IP地址对应关系设置：/etc/hosts

Linux系统管理
网络设置
http://reverland.bitbucket.org/VirtualBox_net.html
关机重启
reboot
shutdown -r now 立刻重启(root用户使用)
shutdown -r 10 过10min自动重启(root用户使用)
shutdown -r 20：35 在时间为20：35时候重启(root用户使用)