
大数据
Martinmu2013
Simple is beautiful.---Martin
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从0开始学大数据(1):Parallels Desktop下CentOS系统的安装和静态IP地址配置
前言 目前有学习大数据的打算,现在需要写下我的学习过程。因为我本身是在Mac环境下进行学习,我会一步步的记录下,我学习大数据的过程。 环境 Centos的系统安装 首先,我需要下载虚拟机Parallels Desktop 14.0.1提取码: vycc 安装后,会选择虚拟机下载Centos 7,根据步骤安装就好。 注意点: 我们在软件安装完成的时候,登陆软件需要翻墙和代理。 ...原创 2019-01-24 00:31:17 · 780 阅读 · 0 评论 -
从0开始学大数据(2):大数据的概论和Hadoop安装
前言 上一篇文章前面使用虚拟机安装了centos系统和配置虚拟机的IP静态地址,这篇文章Hadoop安装、概述、编译。 Hadoop的运行环境搭建 创建文件夹 更改用户权限 一般情况下,在一些特定的目录中需要一些权限来创建文件夹,但是频繁的去切换到root用户比较麻烦,其实我们可以通过修改/etc/soduers文件来做到当前用户也能获取权限的目的。 我们只需要见root的命令操作权限复制一...原创 2019-02-18 00:41:07 · 334 阅读 · 0 评论 -
从0开始学大数据(3):Hadoop本地模式和伪分布模式的应用
Hadoop运行模式 概述 官网网址 官网网址: http://hadoop.apache.org/ 各个版本的归档库:https://archive.apache.org/dist/hadoop/common/ Hadoop2.7.2版本详情介绍:https://hadoop.apache.org/docs/r2.7.2/ Hadoop运行模式 本地模式(默认模式):不需要启用单独进程,直...原创 2019-02-18 00:41:24 · 387 阅读 · 0 评论 -
从0开始学大数据(4):Hadoop完全分布式模式的配置和应用
前言 上一篇文章《从0开始学大数据(3):Hadoop运行模式与官网案例(上)》我们学习了Hadoop的运行模式——伪分布模式的配置,这篇文章我们来学习另外一种Hadoop的运行模式——完全分布式模式。 配置完全分布式模式 首先我们来分析下我们的整体步骤: 1.准备三台客户机(关闭防火墙、静态ip、主机名称) 2.安装jdk 3.配置环境变量 4.安装hadoop 5.配置环境变量 6.安装ss...原创 2019-02-20 01:32:53 · 491 阅读 · 0 评论 -
从0开始学大数据(5):HDFS文件系统和常用API
前言 上一篇文章《从0开始学大数据(4):Hadoop完全分布式模式的配置和应用》我们学会了如何使用三台机器去搭建HDFS文件系统,但是我们对其中的一些专业词汇如namenode,datanode,resourcemanager,nodemanager不是很熟悉,这篇文章我们需要来普及一下。 1.HDFS概念 1.1 概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,...原创 2019-03-13 10:02:12 · 241 阅读 · 0 评论 -
从0开始学大数据(6):HDFS的数据流
前言 通过上一章《从0开始学大数据(5):HDFS文件系统和常用API》我们学习了一些常用的API进行分析,这章我们来分析HDFS的数据流的写入和读取流程。 1 HDFS写数据的流程 1.1 剖析文件写入 1.2 网络拓扑概念 在海量数据处理中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准。 我们在平台的节点中,选取两个节点A和B并且向上...原创 2019-03-18 01:52:22 · 408 阅读 · 0 评论