Linux①—环境准备工作

本文详细介绍如何从零开始在Ubuntu 18.04系统上进行环境准备工作,包括系统下载与安装、语言设置、软件源优化、启动栏管理、常用软件安装与卸载,以及deb格式软件包的安装流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Linux①—环境准备工作

<<<因为优快云排版问题,想看排版好的进Linux①—环境准备工作>>>

ubuntu系统(18.04.01版本为例)

①首先进https://cn.ubuntu.com/下载ubuntu的desktop amd64的镜像,然后利用VM直接安装

②进入系统后更改语言(先设置中的语言选项将简体中文提到最前面位置,然后重启,重启后记得文件夹名称保留旧的名称并不再提示)

③ubuntu安装大部分软件通过apt命令 服务器
应该设置最佳服务器,找到速度最快的服务器,一般国内的服务器比国外快
在“软件和更新”的“下载自”点击“其他站点…”,再点击“选择最佳服务器”,它会进行测速,然后选择服务器,按给定提示操作

④ubuntu启动栏(收藏夹)
ubuntu启动栏(收藏夹)可以显示常用软件图标和正在运行的软件图标
可以将经常使用的软件添加到启动栏(收藏夹)中

⑤apt终端命令
Advanced Packaging Tool(apt)是Linux下的一款安装包管理工具
安装软件 $ sudo apt install 软件名
卸载软件 $ sudo apt remove 软件名
更新可用软件包列表(查看可更新列表) $ sudo apt update
更新已安装的包(更新软件) $sudo apt upgrade
Linux sudo命令以系统管理者的身份执行指令,也就是说,经由 sudo 所执行的指令就好像是 root 亲自执行

⑥安装卸载软件
在终端输入未安装的软件的名字,会提示你安装的格式
例如 输入python 会提示输入 sudo apt install python进行安装
输入pip 会提示输入 sudo apt install python-pip进行安装

sudo apt remove 软件包名 进行卸载软件
附加:apt = apt-get + apt-cache + apt-config 中最常用命令选项的集合

⑦安装deb格式
DEB是 Debian /ˈdɛ.bi.ən/ 软件包格式的文件扩展名
“dpkg ”是“Debian Packager ”的简写。为 “Debian” 专门开发的套件管理系统,方便软件的安装、更新及移除。所有源自“Debian”的“Linux ”发行版都使用 “dpkg”,例如 “Ubuntu”、“Knoppix ”等
$ sudo dpkg -i <package.deb>
例: 安装搜狗输入法
安装搜狗输入法需要fcitx的支持,在语言设置中键盘输入法系统可以看到是否有
Fcitx[ˈfaɪtɪks]是 (Free Chinese Input Toy for X) 的英文缩写,中文名为小企鹅输入法,是一个以 GPL 方式发布的输入法框架, 编写它的目是为桌面环境提供一个灵活的输入方案,彻底解决在GNU/Linux下没有一个好的中文输入法的问题
安装fcitx步骤
(1)sudo apt-get install fcitx-bin 相关的依赖库和框架都会自动安装上
(2)sudo apt-get install fcitx-table 安装输入法
sudo apt -f install 修复安装

安装搜狗输入法步
$ sudo dpkg -i xxx.deb
$ sudo apt -f install
中间会报错,然后 $ sudo apt -f install 修复一下安装
重启,然后ubuntu 18 的系统需要在桌面右上方小键盘图标点击配置,然后将搜狗输入法放第一位

<think>好的,用户现在问的是如何在Linux虚拟机下搭建Hadoop伪分布式环境,并运行WordCount实例来测试。之前用户已经询问过些Hadoop的基本操作,比如创建目录、上传文件等,所以这次的问题可能是在更基础的环境搭建上。 首先,我需要考虑用户的使用场景。可能用户是刚开始学习Hadoop的学生或者开发者,需要在虚拟机里搭建环境进行实验。他们可能对Linux系统和Hadoop的配置不太熟悉,所以步骤需要详细,并且要指出可能遇到的坑。 接下来,用户的真实需求是完成伪分布式环境的搭建,并成功运行示例程序。伪分布式模式适合单节点测试,用户可能没有多台机器,所以需要详细的配置步骤。另外,用户可能还希望确保环境正确配置,避免后续操作出错。 用户可能没有明确提到的深层需求包括环境配置的正确性、权限问题、SSH免密登录的设置,以及运行WordCount时可能遇到的常见错误。比如,配置文件的修改是否正确,Java环境变量是否设置,还有Hadoop的日志如何查看等。 现在需要整理搭建步骤,首先确保系统环境,比如安装Java,配置SSH。然后下载和解压Hadoop,接着修改配置文件,如hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。这些文件的配置是伪分布式的关键,需要详细说明每个参数的作用。 之后是初始化HDFS,启动集群,并验证服务是否正常运行。这部分需要给出具体的命令,比如start-dfs.sh和start-yarn.sh,以及如何用jps检查进程。 然后是运行WordCount示例,需要创建输入目录,上传文件,运行任务,并检查输出结果。这里要确保用户知道如何正确使用HDFS命令,以及如何处理可能的错误,比如文件路径问题或者任务提交失败。 此外,注意事项也很重要,比如关闭防火墙,确保主机名解析正确,Java路径配置正确,以及如何排查常见问题。比如,如果DataNode没有启动,可能需要检查日志或者重新格式化NameNode。 最后,可能还需要给出些扩展建议,比如学习YARN管理,HDFS原理,或者性能调优,帮助用户进步学习。 需要确保回答结构清晰,步骤明确,命令正确,并且覆盖用户可能遇到的问题。同时,语言要简洁易懂,避免使用过于专业的术语,或者如果使用了,需要适当解释。例如,解释伪分布式和完全分布式的区别,或者NameNode和DataNode的作用。 还要检查之前的回答是否有相关的内容,比如之前用户的问题涉及Hadoop操作,现在则是环境搭建,可能需要引用之前的命令,但这里主要需要详细的环境搭建步骤。 总结下来,回答需要分步骤,每个步骤详细说明,给出命令示例,注意事项,以及验证步骤。同时,考虑用户可能遇到的常见问题,提供解决方案,比如如何处理SSH免密登录失败,或者Hadoop启动时端口被占用等问题。</think>以下是Hadoop伪分布式环境搭建及WordCount实例测试的详细指南: --- ### **环境准备** 1. **系统要求** - Linux虚拟机(推荐Ubuntu 20.04/CentOS 7) - Java 8+(必须配置JAVA_HOME) - SSH服务(需配置免密登录) - 硬盘空间≥10GB,内存≥4GB 2. **安装依赖** ```bash # 安装SSH和Java sudo apt-get update sudo apt-get install ssh openjdk-8-jdk -y ``` --- ### **二、Hadoop安装配置** #### **1. 下载与解压** ```bash wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local cd /usr/local && mv hadoop-3.3.4 hadoop sudo chown -R hadoop:hadoop hadoop # 假设用户名为hadoop ``` #### **2. 配置环境变量** 编辑`~/.bashrc`: ```bash export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # 根据实际路径修改 ``` 执行生效: ```bash source ~/.bashrc ``` #### **3. 修改Hadoop配置文件** > **配置文件位置**:`$HADOOP_HOME/etc/hadoop/` **① hadoop-env.sh** ```bash export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 ``` **② core-site.xml** ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> </configuration> ``` **③ hdfs-site.xml** ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///usr/local/hadoop/tmp/dfs/data</value> </property> </configuration> ``` **④ mapred-site.xml** ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` **⑤ yarn-site.xml** ```xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` --- ### **三、SSH免密登录配置** ```bash ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys # 测试连接 ssh localhost ``` --- ### **四、HDFS初始化与启动** #### **1. 格式化NameNode** ```bash hdfs namenode -format ``` #### **2. 启动Hadoop集群** ```bash start-dfs.sh start-yarn.sh ``` #### **3. 验证服务状态** ```bash jps # 应显示以下进程: # NameNode # DataNode # ResourceManager # NodeManager # SecondaryNameNode ``` --- ### **五、运行WordCount实例** #### **1. 准备测试文件** ```bash echo "Hello World Hadoop" > input.txt echo "Hello Hadoop MapReduce" >> input.txt ``` #### **2. HDFS操作** ```bash hdfs dfs -mkdir -p /user/hadoop/input hdfs dfs -put input.txt /user/hadoop/input ``` #### **3. 执行MapReduce任务** ```bash hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar \ wordcount /user/hadoop/input /user/hadoop/output ``` #### **4. 查看结果** ```bash hdfs dfs -cat /user/hadoop/output/part-r-00000 # 预期输出: # Hadoop 2 # Hello 2 # MapReduce 1 # World 1 ``` --- ### **六、常见问题排查** 1. **NameNode未启动** - 检查`hadoop-root-namenode-*.log`日志 - 重新格式化:`hdfs namenode -format` 2. **端口占用问题** ```bash netstat -tlnp | grep 9000 # 检查HDFS端口冲突 ``` 3. **权限错误** ```bash sudo chown -R hadoop:hadoop /usr/local/hadoop ``` --- ### **七、扩展建议** 1. **Web界面监控** - HDFS管理界面:`http://localhost:9870` - YARN管理界面:`http://localhost:8088` 2. **深入学习方向** - YARN资源调度机制 - HDFS读写流程源码分析 - MapReduce执行过程优化 --- 通过以上步骤即可完成伪分布式环境搭建和基础功能验证。如果遇到操作异常,建议优先检查日志文件(位于`$HADOOP_HOME/logs`目录)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值