
大数据系列教程
Java潘老师
程序员有三种美德:懒惰,急躁和傲慢...
展开
-
大数据系列教程008-DFS介绍
1.DFS介绍由于一台机器的存储容量有限,一旦数据量达到足够的级别,就需要将数据存放在多台机器上,这就是分布式文件系统,又称之为 DFS(Distributed File System),DFS 是 HDFS 的基础。2.什么是DFS分布式文件系统 DFS 是基于 Master/Slave 模式,通常一个分布式文件系统提供多个供用户访问的服务器,一般都会提供备份和容错的功能。分布式文件系统管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,而非文件系统管理的物理存储资源.原创 2020-05-22 08:29:43 · 689 阅读 · 0 评论 -
大数据系列教程007-windows配置hosts
1.修改windows的hosts配置,为了方便通过主机名访问虚拟机2.在C盘windows文件中找到System32-->drivers-->etc,进入到etc文件夹中就能看到hosts文件3.修改4.如遇360提示劫持域名,选择允许修改5.如遇无权限1)在配置hosts时,有时会遇到无权限保存情况,这时需要给当前用户分配权限。在hosts文件上右键菜单点击属性2)弹出窗口点击页签安全,点击选中当前用户,点击编辑按钮3)点击当前用...原创 2020-05-18 10:28:58 · 466 阅读 · 0 评论 -
大数据系列教程006-开启日志聚合功能
Container日志是hadoop各个container记录的日志,其中会包含错误或失败的重要信息。如果没有打开日志聚合,默认是分布在各个nodemanager节点上的。如果打开了日志聚合选项,则会统一放在集中的位置(比如HDFS上)。Container日志会记录作业运行时会发生的各种运行时信息和错误,对于调试和调优有很大的帮助。1.修改master的yarn-site.xml配置,新增: <property> <name>yarn.log-a..原创 2020-05-18 10:22:55 · 315 阅读 · 0 评论 -
大数据系列教程005-NTP方式同步服务器时间
版权声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:Q:1562691348V:A1562691348本教程学习知识储备:Java SE基础、Linux基础、数据库基础如果不同步服务器时间,在完全分布式环境下运行代码时可能会出现如下异常: org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized re..原创 2020-05-14 08:48:33 · 439 阅读 · 0 评论 -
大数据系列教程004-完全分布式环境搭建步骤
一.说明:1、伪分布式环境是一台虚拟机,自身既是主节点又是从节点,即既是NameNode也是DataNode2、完全分布式环境,需要多台虚拟机,这里我们使用一主两从配置3、我们这里的分布式环境搭建基于之前的伪分布式master主机二、具体步骤1.再安装两台虚拟主机分别为slave1、salve22.设置静态和主机名,要求如下: 主机 主机名 ip master master .原创 2020-05-13 17:24:39 · 812 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤04-设置静态ip
声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:Q:1562691348V:A1562691348本教程学习知识储备:Java SE基础、Linux基础、数据库基础1.以root权限登录系统,我们可以输入ip addr可以查找到对应的网卡名称,由于我们之前修改过网卡命名为eth0,所以这里截图为eth0,如果没修改,名称可能是ens332.接着输入vi /etc/sysco.原创 2020-05-11 13:05:06 · 293 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤07-新建hadoop用户
声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:Q:1562691348V:A1562691348本教程学习知识储备:Java SE基础、Linux基础、数据库基础1.创建hadoop用户(root权限太大,一般会创建普通用户,要求每个主机的用户和用户组都要相同)1)在master上使用如下命令来创建hadoop用户 adduser hadoop 给hadoo.原创 2020-05-12 08:31:45 · 299 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤11-启动与验证环境
1.将/usr/hadoop目录赋予777权限,否则格式化会出错,无法创建目录 sudo chmod -R 777 /usr/hadoop 2.进入目录: cd /usr/hadoop/hadoop-3.2.1 1).格式化hdfs文件系统 bin/hdfs namenode -format 注意:只需要格式化一次,不需要每次使用都格式化,如果格式化出错,最好先删除/usr/hadoop/hadoopdata目录再重新原创 2020-05-12 09:07:49 · 287 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤09-安装jdk
1.查看系统是否已经安装了JDK,部分centos7会默认自带安装OpenJDK使用指令 java -versionnot found说明没有装JDK,如果指令执行成功,则需要卸载,具体卸载方法可以 百度。2.去ORACLE官网下载JDKhttps://www.oracle.com/java/technologies/javase-downloads.html我这使用jdk-8u111-linux-x64.tar.gz 版本3.将本地下载好的文件上传到系统中这..原创 2020-05-12 08:49:20 · 314 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤08-设置ssh免密登陆
1.通过xshell,使用hadoop登录系统2.SSH原登录方式,需要正确输入密码才能正常登录2.exit退出后,我们现在想使用SSH公私钥对方式实现免密登录(1)使用如下指令生成公私钥对(也可以使用rsa加密算法) ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 这时~/.ssh目录下会生成私钥和公钥的键值对 id_dsa 和 id_dsa.pub(2)将公钥写入认证文件中,然后cd ~/.ssh 查看成的公私.原创 2020-05-12 08:39:15 · 286 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤06-永久关闭防火墙
声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:Q:1562691348V:A1562691348本教程学习知识储备:Java SE基础、Linux基础、数据库基础1.永久关闭防火墙查看防火墙状态指令firewall-cmd --state停止防火墙指令 systemctl stop firewalld.service禁止firewall开机启动.原创 2020-05-11 13:22:46 · 283 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤05-永久修改主机名
声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:Q:1562691348V:A1562691348本教程学习知识储备:Java SE基础、Linux基础、数据库基础以下使用xsehll进行操作:注意:XShell安装必须选择English语言,否则rz上传文件会出错。xshell下载地址:https://xshell.en.softonic.com/xshell 使用方法不.原创 2020-05-11 13:17:03 · 360 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤03-安装虚拟机CentOS7
1.CentOS 7.5 Mini版操作系统下载镜像地址:http://archive.kernel.org/centos-vault/2.安装步骤2.1 安装好虚拟机,图形界面如下图2.2 点击创建新的虚拟机,选择自定义(高级),点击下一步2.3虚拟机硬件兼容性默认,直接下一步2.4 浏览需要安装的CentOS7.5镜像文件,下一步2.5 设置虚拟机名称和存储路径,下一步2.6 处理器配置默认(后面可以修改),直接下一步.原创 2020-05-11 12:55:37 · 297 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤02-设置vmware虚拟网络编辑器
声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:Q:1562691348V:A1562691348本教程学习知识储备:Java SE基础、Linux基础、数据库基础1、首先进入虚拟机一定要学会配置网络,因为基于虚拟机的很多任务都是需要网络支持或者需要你远程访问的,我们打开虚拟机的编辑找到虚拟网络编辑器打开2、这里就用到我们刚才的配置,我们选择的是NAT网络,一般是Vment.原创 2020-05-11 10:48:31 · 415 阅读 · 0 评论 -
大数据系列教程003-hadoop伪分布式环境搭建步骤
声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:Q:1562691348V:A1562691348本教程学习知识储备:Java SE基础、Linux基础、数据库基础步骤:直接点击链接查看1.安装vmware2.设置vmware虚拟网络编辑器-参考1.23.安装虚拟机-参考1.34.设置静态ip-参考1.45.永久修改主机名-参考1.56.永久关闭防火墙-参考1..原创 2020-05-11 10:38:06 · 372 阅读 · 0 评论 -
大数据系列教程002-初识hadoop
声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:Q:1562691348V:A1562691348本教程学习知识储备:Java SE基础、Linux基础、数据库基础1.Hadoop起源于背景Hadoop雏形开始于2002年的Apache的Nutch,是一个开源Java 实现的搜索引擎。Nutch的目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,随着抓取的数据量的增.原创 2020-05-11 09:36:32 · 351 阅读 · 0 评论 -
大数据系列教程001-初识大数据
声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:Q:1562691348V:A1562691348本教程学习知识储备:Java SE基础、Linux基础、数据库基础1.大数据起源与背景先了解两个概念(摩尔定律和新摩尔定律):谷歌公司这样基于搜索引擎的公司,需要将互联网上每天产生的海量数据爬取存储到自己的索引库,提供给用户搜索,就面临着海量数据存储与处理的问题...原创 2020-05-11 09:11:56 · 843 阅读 · 0 评论