
大数据之hadoop
文章平均质量分 67
这个主要用于学习hadoop.学习此章节需要准备好自己的集群.怎么搭建集群在我的另一个专栏,教了如何搭建集群与其他常用系统,常用组件,常用应用程序的安装,
深入kafka
准备方向:大数据开发
展开
-
hadoop的MapReduce提交任务到yarn实操
一:命令: hadoop jar /export/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.0.jar pi 3 1000。三:向hdfs文件系统提交要计算的文件: hadoop fs -put ./word.txt /input/一:创建文件夹供放入要计算的文件 hadoop fs -mkdir -p /input。二:创建计算结果输出的文件夹 hadoop fs -mkdir -p /output。原创 2024-10-20 20:16:32 · 488 阅读 · 0 评论 -
hadoop的yarn
服务器运行程序,运行程序所需的资源预先通知给resourcemanager,由resourcemanager通知给nodemanager进行调度,而nodemanager这边先搭建一个container(容器),把程序所需资源先占用放入container,再供给程序使用.程序向YARN申请所需资源, YARN为程序分配所需资源供程序使用,明显的担起了资源调度的职责。: 单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用。一:/etc/hadoop/yarn-env.sh。原创 2024-10-20 19:33:14 · 1042 阅读 · 0 评论 -
hadoop的MapReduce
二:中心调度模式: 1. 由一个节点作为中心调度管理者 2. 将任务划分为几个具体步骤 3. 管理者安排每个机器执行任务 4. 最终得到结果数据。一:分散-汇总模式:数据分片,多个服务器负责各个部分数据处理,最后结果汇总。也就是一系列, 基于数据得出的结论。这些就是我们所说的计算。3.MapReduce(hadoop的计算组件)(hive的底层工具)二:编程接口:map(分散)与reduce(汇总)1.什么是计算(广义): 内容分析, 得到需要的结果。一:利用的是分散-汇总模式。原创 2024-10-19 21:17:10 · 337 阅读 · 0 评论 -
hdfs的分布式存储原理
namenode运行客户所操作的命令后,生成edits文件,操作的文件或文件夹放入namenode与datanode,而namenode的fsimage文件由secondarynamenode把namenode的edits文件拿过来进行合并,再返回到namenode里.将文件划分后,一个block丢失则原来的大文件没有用了.为了确保文件的安全性,hdfs提供了副本,也就是备份,将文件划分之后hdfs默认将每一个block。方式一:文件是hdfs.site.xml,默认是三个副本,基本无需修改。原创 2024-10-19 20:54:42 · 2327 阅读 · 0 评论 -
hdfs的客户端(big data tools插件)
4.在jetbrains公司的软件里下载big data tools插件:(在此展示的idea的)2.下载hadoop.dll文件和winutil.exe文件(网上自行查找)1.下载hadoop的压缩包在Windows,后解压。$HADOOP_HOME指向hadoop的文件夹。这时就big data tools客户端搭建完成。下载完把这两个文件放入hadoop的bin目录。方式二:URL:主机名:8020/选择big data tools。测试connected,OK了。原创 2024-10-18 15:57:12 · 522 阅读 · 1 评论 -
hdfs集群的shell操作
上传文件:hdfs dfs -put [-f] [-p] 下载:hdfs dfs -get [-f] [-p] ... 所属用户,用户组:hdfs dfs -chown [-R] 所属用户:所属用户组 文件路径。复制:hdfs dfs -cp [-f] ... 追加: hdfs dfs -appendToFile 移动:hdfs dfs -mv原创 2024-10-17 20:46:06 · 1102 阅读 · 0 评论 -
大数据之hadoop(hdfs部分)
4.hdfs:(全称:hadoop distributed file system):也就是Hadoop分布式文件系统,是一个Hadoop的中间组件.主要解决海量数据的存储工作。主角色:namenode(管理hdfs整个文件系统,管理database),带着一个secondarynode(辅助)3.主从模式(master-slaves):(中心化模式):一台master管理多台slaves工作。一.去中心化模式: 没有明确的中心点,协调工作 eg:kafka。命令: start-dfs.sh。原创 2024-10-15 21:33:15 · 1050 阅读 · 0 评论 -
Linux的hadoop集群部署
命令: wget https://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.4.0/hadoop-3.4.0.tar.gz。五:修改配置文件hadoop-env.sh 命令: vi /export/server/hadoop-3.4.0/etc/hadoop/hadoop-env.sh。命令: ln -s /export/server/hadoop-3.4.0 /export/server/hadoop。原创 2024-10-12 21:42:12 · 1384 阅读 · 0 评论 -
Linux的Tomcat安装部署
命令: tar -zxvf /root/linux.jdk/jdk-11.0.24_linux-x64_bin.tar.gz。配置软连接:ln -s /export/server/jdk/bin/java /usr/bin/java。命令: /export/server/tomcat/bin/startup.sh。移动命令: mv jdk-11.0.24/ /export/server。新建文件夹: mkdir -p /export/server。删除:rm -f /usr/bin/java。原创 2024-10-07 21:23:45 · 835 阅读 · 0 评论 -
Linux集群化软件安装,前置
一:在每台机子都执行 ssh-keygen -t rsa -b 4096 然后一路回车,直到退出(root权限执行)vim /etc/sysconfig/network-scripts/ifcfg-ens33 进入这个文件,操作请看我的文章。二:每台机子都执行(作用:让每台机子共享密码,切换就不再需要密码)8.关闭安全模块SELinux,防止后续出错(每台机子都执行)编辑文件: vi /etc/sysconfig/selinux。命令: vim /etc/hosts。2.配置各个主机IP地址。原创 2024-10-10 20:55:05 · 455 阅读 · 0 评论