
Hadoop
文章平均质量分 58
王小磊~
这个作者很懒,什么都没留下…
展开
-
windows+pycharm+pyspark+linux远程开发环境搭建
Anaconda liunx版本下载Anaconda | The World’s Most Popular Data Science PlatformAnaconda linux版本安装上传文件到虚拟机安装目录下在安装目录下运行程序sh ./Anaconda3-2021.11-Linux-x86_64.sh按回车继续,之后按空格一直到 yes/no 输入yes 再之后输入需要安装的目录 之后就等待安装完成Anaconda换源sudo gedit ~/.condarc添加内容chan原创 2022-04-04 23:17:54 · 3156 阅读 · 0 评论 -
ZooKeeper_005_javaAPI操作
1,创建Java工程新建一个maven项目在idea中新建一个Maven项目,关于idea的安装可以去微信,百度搜索idea安装相关内容。Maven项目的创建可以百度 hadoop maven项目等关键词。我创建的zookeeper项目如下2,添加zookeeper的Java API依赖包在pom.xml文件中添加如下代码<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.or原创 2022-01-15 21:20:01 · 1263 阅读 · 0 评论 -
ZooKeeper_004_命令行操作
x连接ZooKeeper集群zkCli.sh -server node001:21811,查询节点列表ls 可以查看ZooKeeper中相应路径下的所有zone节点,例如查看根目录下的所有节点。ls /2,创建节点create 创建一个新的zone节点create /zk "myData"创建zone节点的子节点node1create /zk/node13,查看节点详细信息get /zkget 可以查看某个zone的详情状态信息及其包含的元数字字符串。4,修改节点原创 2022-01-15 14:14:33 · 887 阅读 · 0 评论 -
ZooKeeper_003_伪分布式搭建
1,建立配置文件进入ZooKeeper的conf文件夹cd~/apache-zookeeper-3.7.0-bin/confzoo1.cfgsudo gedit zoo1.cfg插入内容:initLimit=10syncLimit=5# zookeeper存储文件的位置dataDir=/home/hadoop/apache-zookeeper-3.7.0-bin/1.data# zookeeper日志文件的位置dataLogDir=/home/hadoop/apache-zooke原创 2021-12-27 23:01:23 · 1099 阅读 · 0 评论 -
ZooKeeper_002_分布式搭建
1,上传Zookeeper安装文件官网下载:https://www.apache.org/dyn/closer.lua/zookeeper将apache-zookeeper-3.7.0-bin.tar.gz上传到node001节点的主文件夹中进入主目录进行解压cd ~tar -zxvf apache-zookeeper-3.7.0-bin.tar.gz -C /home/hadoop/由于后边设置变量等情况会多次使用该文件夹,所以可以对该文件夹进行改名。我这里为了方便将其改为 zook原创 2021-12-27 22:55:54 · 1146 阅读 · 0 评论 -
Zookeeper_001_克隆与主机IP映射
1,克隆三台虚拟机node001,node002,node0032,修改ip和主机名称分别查看各节点ipifconfig我的三个主机ip为:node001:192.168.2.132node002:192.168.2.133node003:192.168.2.1353,在各个节点中分别执行以下命令,修改hosts文件:sudo gedit /etc/hosts追加内容:192.168.2.132 node001192.168.2.133 node002192.168原创 2021-12-27 22:50:37 · 2386 阅读 · 0 评论 -
MapReduce简介
5.1 MapReduce简介MapReduce 是hadoop的一个核心组成框架,使用该框架编写的应用程序能够以一种可靠的、容错的的方式并行处理大型集群(数千个节点)上的大量数据(TB级别以上),也可以对大数据进行加工,挖掘等优化处理。一个 MapReduce 任务主要包括两部分:Map任务和Reduce任务。Map任务负责对数据的获取、分割与处理,其核心执行方法为map()方法。**MapReduce** 将并行计算过程高度抽象了 map() 方法和 reduce 方法中,程序员只需要负责这两个原创 2021-09-04 16:48:49 · 1546 阅读 · 0 评论 -
java类的构造方法编程训练—买可乐
【训练3】买可乐,张三去KFC买可乐,商家默认不加冰块,但是张三可以要求加3个冰块。利用构造方法完成。package java入门到精通;public class AddBlock { int blockCount; public AddBlock(int blockCount) { this.blockCount = blockCount; } public AddBlock() { this(0); ..原创 2021-09-03 21:31:52 · 916 阅读 · 0 评论 -
HDFS—Web页面操作
Hadoop集群启动后,可以通过浏览器Web界面查看HDFS集群的状态信息,访问IP为NameNode所在服务器的IP地址,访问端口默认为50070。1,首先我们在命令行界面输入 ifconfig 命令:这样就可以查看本机的ip地址,例如我的机器ip为192.168.2.1302,打开浏览器输入 ip:50070例如我的访问地址为 192.168.2.130:50070点击Overview就可以查看文件系统的基本信息,例如系统启动时间,Hadoop版本号,Hadoop源.原创 2021-09-03 20:39:39 · 11736 阅读 · 0 评论 -
HDFS命令行操作
HDFS的命令行接口类似传统的Shell命令,可以通过命令行接口与HDFS系统进行交互,从而对系统中的文件进行读取、移动、创建操作。命令行接口有两种格式如下:hadoop fs -命令 文件路径hdfs dfs -命令 文件路径执行hadoop fs 或者 hdfs dfs可以列举出所有的HDFS命令:hadoop fs1、ls使用 ls 命令可以查看系统中的目录和文件,这里我们以HDFS的根目录为例。命令如下:hadoop fs -ls 需...原创 2021-09-01 17:02:53 · 4944 阅读 · 1 评论 -
HDFS主要组件(数据块、NameNode、DataNode、secondaryNameNode)
HDFS主要组件1、数据块(Block) HDFS中的文件是以数据块的形式存储的,默认最基本的存储单位是128MB的数据块,也就是说,存储在HDFS中的文件都会被分割成128MB一块的数据进行存储,如果文件本身小于128MB,则按照实际大小进行存储,并不占用整个数据库空间。 HDFS的数据块之所以会设置这么大,其目的是减少寻址开销。数据块数量越多,寻址数据块所耗费的时间越多。当然也不会设置过大。 HDFS的每一个数据块默认都有3个副本,分布存储在不同...原创 2021-09-01 15:25:14 · 7238 阅读 · 0 评论 -
Hadoop组件——HDFS
1,HDFS简介 HDFS(Hadoop Distributed File System)是hadoop项目的核心子项目,在大数据开发通过分布式计算对海量数据进行存储与管理。它基于流数据模式访问和处理超大文件的需求而开发,可以运行在廉价的商用服务器上,为海量数据提供了不怕故障的存储方法,进而为超大数据集的应用处理带来了很多便利。HDFS的特点:HDFS非常适合使用商业硬件进行分布式存储和分布式处理。它具有容错性,可扩展性,并且扩展极其简单。 HDFS具有高度可配置性。大多...原创 2021-09-01 13:34:39 · 414 阅读 · 2 评论 -
Hadoop及组件的安装
hadop的安装关于hadoop的安装已经有大佬有了详细的资源,这里我为大家分享一个厦门大学数据库实验室的安装资料,可以说资料非常详细,包括各个组分的安装以及安装出错的解决方案,非常适合刚入门的小伙伴。关于一些安装包我将上传到我的资源中。希望大家安装顺利。厦门大学Hadoop安装教程厦门大学Hadoop安装教程厦门大学Hadoop安装教程 在搜索框搜索Hbase、hive、sqoop等组件也会出现相应教程!现在大三,双非二本院校...原创 2021-08-31 18:09:49 · 243 阅读 · 1 评论 -
YARN工作流程
YARN的工作流程YARN集群中引用程序的执行程序如图所示: 客户端提交应用程序(可以是MapReduce程序、Spark程序等)到ResourceManager。 ResourceManager分配用于运行ApplicationMaster的Container,然后与NodeManager通信,要求它在该Container中启动ApplicationMaster。ApplicationMaster启动后它将负责此次程序的整个生命周期。 A...原创 2021-08-31 17:53:03 · 156 阅读 · 0 评论 -
Hadoop组件——YARN
YARN基本架构及组件 YARN集群总体上是经典的主/从(Master/Slave)架构,主要有ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。YARN集群架构如图所示。 1、ResourceManager resourceManager以后台进程的形式进行,负责对集群资源进行统一管理和任务调度。ResourceManager的主要职责如下:1、接收来自客户端的请求。2、...原创 2021-08-31 16:58:33 · 333 阅读 · 0 评论 -
Hadoop核心组件(板块)
今天学习了Hadoop的核心板块,Hadop的核心板块主要包括:现在大三了双非二本院校,不打算考研,准备主公Hadoop生态系统。购买了一本张伟洋老师的hadoop大数据技术开发实战,今天开始将记录我每天的学习成果,感兴趣的小伙伴可以点个关注一起学习,一起进步!...原创 2021-08-31 11:32:49 · 727 阅读 · 0 评论