
大数据技术
JJJims
这个作者很懒,什么都没留下…
展开
-
第1章 HDFS概述
1.1 HDFS产生背景 随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2 HDFS概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合原创 2020-09-06 21:25:20 · 196 阅读 · 0 评论 -
第4章 Hadoop运行模式
概述 Hadoop运行模式包括: 本地模式:不需要启用单独进程,直接可以运行,测试和开发时使用。 伪分布式模式以及:等同于完全分布式,只有一个节点。 完全分布式模式:多个节点一起运行。 Hadoop官方网站:http://hadoop.apache.org/ 4.1 本地运营Hadoop 案例 4.1.1 官方grep案例 1)创建在hadoop-2.7.2文件下面创建一个input文件夹 [root@hadoop132 hadoop-2.7.2]# mkdir input 2)将hadoop的xml配原创 2020-08-29 14:46:07 · 564 阅读 · 0 评论 -
第3章 Hadoop运行环境搭建
3.1 虚拟机网络模式设置为NAT 最后,重新启动系统。 [root@localhost /]# sync [root@localhost /]# reboot 3.2 修改为静态ip原创 2020-08-10 23:34:42 · 279 阅读 · 0 评论 -
第2章 从Hadoop框架讨论大数据生态
2.1 Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈 2.2 Hadoop发展历史 1)Lucene–Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 2)2001年年底成为apache基金会的一个子项目 3)对于大数量的场景,L原创 2020-08-04 22:32:18 · 248 阅读 · 0 评论 -
第1章 大数据概论
1.1 大数据概念 大数据(Big Data):指无法在一定时间范围内使用常规软件工具捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决:海量数据的存储、海量数据的分析计算问题。 按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB 1Byte = 8bit 1KB = 1024Byte 1MB = 1024KB 1GB = 1024MB 1TB = 1024GB 1P原创 2020-07-31 16:54:09 · 601 阅读 · 0 评论