Hadoop学习笔记

本文详细介绍了Hadoop单机模式及伪分布式模式的搭建步骤,包括环境准备、安装配置、验证测试等关键环节。

最近在学习Hadoop,遇到不少问题还好都一一解决了,希望记录下来以后可以查看。


1.首先最基本的就是搭Hadoop环境,因为资源问题暂时只尝试单机模式和伪分布式模式。

首先在我的Win7上安装Orace VBox,然后在上面安装一个Ubuntu 14.04 Kylin, 然后再安装Hadoop 2.6.0

单机模式

单机模式比较简单,安装Java, OpenSSH-Server然后修改 hadoop-env.sh就可以在单机上运行了。

1.添加hadoop用户到系统用户

安装前要做一件事——添加一个名为hadoop到系统用户,专门用来做Hadoop测试。

[html]  view plain copy
  1. ~$ sudo addgroup hadoop  
  2. ~$ sudo adduser --ingroup hadoop hadoop  

现在只是添加了一个用户hadoop,它并不具备管理员权限,因此我们需要将用户hadoop添加到管理员组:

[html]  view plain copy
  1. ~$ sudo usermod -aG admin hadoop  


2.安装ssh

由于Hadoop用ssh通信,先安装ssh

[html]  view plain copy
  1. ~$ sudo apt-get install openssh-server  

ssh安装完成以后,先启动服务:

[html]  view plain copy
  1. ~$ sudo /etc/init.d/ssh start   
启动后,可以通过如下命令查看服务是否正确启动:
[html]  view plain copy
  1. ~$ ps -e | grep ssh  


作为一个安全通信协议,使用时需要密码,因此我们要设置成免密码登录,生成私钥和公钥:

[html]  view plain copy
  1. hadoop@scgm-ProBook:~$ ssh-keygen -t rsa -P ""  


因为已有私钥,所以会提示是否覆盖当前私钥。第一次操作时会提示输入密码,按Enter直接过,这时会在~/home/{username}/.ssh下生成两个文件:id_rsa和id_rsa.pub,前者为私钥,后者为公钥,现在我们将公钥追加到authorized_keys中(authorized_keys用于保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容):

[html]  view plain copy
  1. ~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  
现在可以登入ssh确认以后登录时不用输入密码:
[html]  view plain copy
  1. ~$ ssh localhost  

登出:

[html]  view plain copy
  1. ~$ exit  
第二次登录:
[html]  view plain copy
  1. ~$ ssh localhost  


登出:

[html]  view plain copy
  1. ~$ exit  
这样以后登录就不用输入密码了。


3.安装Java

[html]  view plain copy
  1. ~$ sudo apt-get install openjdk-6-jdk  
  2. ~$ java -version  



4.安装hadoop 

官网下载hadoop源文件

解压并放到你希望的目录中。我是放到/usr/local/hadoop

~$ sudo chown -R hadoop:hadoop /usr/local/hadoop 

5.设定hadoop-env.sh(Java 安装路径)

进入hadoop目录,打开conf目录下到hadoop-env.sh,添加以下信息:
            export JAVA_HOME=/usr/lib/jvm/java-6-openjdk (视你机器的java安装路径而定)
            export HADOOP_HOME=/usr/local/hadoop
            export PATH=$PATH:/usr/local/hadoop/bin



并且,让环境变量配置生效source

[html]  view plain copy
  1. ~$ source /usr/local/hadoop/conf/hadoop-env.sh  

至此,hadoop的单机模式已经安装成功。



于是,运行一下hadoop自带的例子WordCount来感受以下MapReduce过程:

在hadoop目录下新建input文件夹
[html]  view plain copy
  1. ~$ mkdir input  
将conf中的所有文件拷贝到input文件夹中
[html]  view plain copy
  1. ~$ cp conf/* input<span style="font-family: Arial, Helvetica, sans-serif; white-space: normal; background-color: rgb(255, 255, 255); "> </span>  
运行WordCount程序,并将结果保存到output中
[html]  view plain copy
  1. ~$ bin/hadoop jar hadoop-0.20.2-examples.jar wordcount input output  


运行

[html]  view plain copy
  1. ~$ cat output/*  
你会看到conf所有文件的单词和频数都被统计出来。



伪分布式模式

伪分布式模式需要修改 core-site.xml,hdfs-site.xml,mapred-site.xml文件.
注意网上不少用的还是hadoop 1.x版本,hadoop 2.6.0有了一些新变化,比如"hadoop dfs -xxx"命令已经不再推荐使用,而是使用"hdfs dfs -xxx"

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

The following instructions are to run a MapReduce job locally. If you want to execute a job on YARN, see YARN on Single Node.

  1. Format the filesystem:
      $ bin/hdfs namenode -format
  2. Start NameNode daemon and DataNode daemon:
      $ sbin/start-dfs.sh

    The hadoop daemon log output is written to the $HADOOP_LOG_DIR directory (defaults to $HADOOP_HOME/logs).

  3. Browse the web interface for the NameNode; by default it is available at:
    • NameNode - http://localhost:50070/
  4. Make the HDFS directories required to execute MapReduce jobs:
      $ bin/hdfs dfs -mkdir /user
      $ bin/hdfs dfs -mkdir /user/<username>
  5. Copy the input files into the distributed filesystem:
      $ bin/hdfs dfs -put etc/hadoop input
  6. Run some of the examples provided:
      $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
  7. Examine the output files:

    Copy the output files from the distributed filesystem to the local filesystem and examine them:

      $ bin/hdfs dfs -get output output
      $ cat output/*

    or

    View the output files on the distributed filesystem:

      $ bin/hdfs dfs -cat output/*
  8. When you're done, stop the daemons with:
      $ sbin/stop-dfs.sh


纸张与塑料实例分割数据集 一、基础信息 • 数据集名称:纸张与塑料实例分割数据集 • 图片数量: 训练集:5304张图片 验证集:440张图片 总计:5744张图片 • 训练集:5304张图片 • 验证集:440张图片 • 总计:5744张图片 • 分类类别: 纸张(paper):常见的可回收材料,广泛用于包装和日常用品。 塑料(plastic):合成聚合物材料,在垃圾处理和回收中需准确识别。 • 纸张(paper):常见的可回收材料,广泛用于包装和日常用品。 • 塑料(plastic):合成聚合物材料,在垃圾处理和回收中需准确识别。 • 标注格式:YOLO格式,包含实例分割多边形标注,适用于实例分割任务。 • 数据格式:图片数据来源于相关领域,标注精确,支持模型训练。 二、适用场景 • 垃圾自动分类系统开发:数据集支持实例分割任务,帮助构建能够精确分割纸张和塑料物体的AI模型,用于智能垃圾桶、回收设施或环境监测系统。 • 环境监测与保护应用:集成至环保监控平台,实时检测和分类垃圾,促进垃圾分类、回收和可持续发展。 • 学术研究与创新:支持计算机视觉与环保领域的交叉研究,为垃圾识别和材料分类提供数据基础,推动AI在环境科学中的应用。 • 工业自动化与物流:在制造业或物流环节中,用于自动化检测和分类材料,提升生产效率和资源管理。 三、数据集优势 • 精准标注与实用性:每张图片均经过仔细标注,实例分割边界精确,确保模型能够学习纸张和塑料的细粒度特征。 • 数据多样性:涵盖多种场景和条件,提升模型在不同环境下的泛化能力和鲁棒性。 • 任务适配性强:标注兼容主流深度学习框架(如YOLO等),可直接用于实例分割模型训练,并支持扩展至其他视觉任务。 • 应用价值突出:专注于可回收材料检测,为垃圾管理、环保政策和自动化系统提供可靠数据支撑,助力绿色科技发展。
代码转载自:https://pan.quark.cn/s/fc36d9cf1917 《建筑工程施工强制性条文检查记录》是针对建筑工程施工过程中的核心环节进行合规性审核的关键性文件,其目的在于保障施工质量与施工安全。 这份文件收录了建筑工程施工过程中必须遵守的国家强制性准则、指令和技术规范,对于建筑施工作业单位、监理机构以及相关行政管理部门而言,均构成不可替代的参考资料。 建筑工程施工强制性条文主要涵盖以下几个方面的内容:1. **设计与施工准则**:工程项目的设计需符合国家的建筑设计准则,涵盖结构稳固性、防火性能、抗震性能、环保性能等方面的标准。 在施工作业阶段,必须严格依照设计图纸和施工计划进行,任何变更均需获得设计单位的一致许可。 2. **建筑材料品质**:所有投入使用的建筑材料,例如混凝土、钢筋、砌块等,都必须具备出厂合格证明,并接受第三方检测机构的品质验证。 严禁采用不合格或已过有效期的材料。 3. **施工安全措施**:在施工作业期间必须恪守安全生产准则,设置安全防护装置,例如脚手架、安全网、警示标识等。 施工人员需接受安全知识培训,并使用个人防护用品。 4. **环境管理**:施工作业应控制噪音、粉尘、废弃物等对环境可能造成的负面影响,推行绿色施工理念,采取降尘、防噪、废弃物分类处理等手段。 5. **工程质量监管**:每个施工作业阶段完成后,需实施自检、互检和专项检查,确保每一道工序的合格性。 对于基础工程、主体结构、防水工程等关键部位,应执行严格的验收流程。 6. **工程验收流程**:工程完工后,必须依照国家规范进行验收,涵盖单位工程验收、分部工程验收和整体工程验收,确保工程符合设计和使用需求。 7. **文档管理**:施工作业期间产生的技术文件、检测报告、会议记...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值