
hadoop
文章平均质量分 91
兵工厂三剑客
莫愁前路无知己,天下谁人不识君
展开
-
Hadoop实战学习(2)-日志清洗
转载自:Hadoop日志清洗1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。转载 2017-06-18 23:01:05 · 2238 阅读 · 1 评论 -
Hadoop机架感知
转载自:Hadoop机架感知1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它机架的节点上找到数据。为了降低整体的带宽消耗和读取延时...转载 2018-05-30 11:12:50 · 222 阅读 · 0 评论 -
Hadoop实战学习(4)-数据库的读写
该文讲述Hadoop读取数据库中表的数据,并将计算结果写入到另一张表。要读写数据库中的数据,首先需要实现一个实体类,这个实体类部分映射数据库中要查询的表的字段。且该实体类需要实现Writable与DBWritable两个接口,DBWritable的实现类负责查询与写入,Writable的实现类负责序列化输出(到Mapper)与写入。代码:package com.readdb;impo...原创 2018-05-29 23:02:37 · 542 阅读 · 0 评论 -
Hadoop实战学习(3)-读取数据库内容
要读取数据库中的数据,首先需要实现一个实体类,这个实体类部分映射数据库中要查询的表的字段。且该实体类需要实现Writable与DBWritable两个接口,DBWritable的实现类负责查询,Writable的实现类负责序列化输出(到Mapper)。 可以将两个接口的实现都写入到一个类。开发环境:mysql-5.7,Hadoop-2.7.3集群,Idea(L...原创 2018-05-29 15:30:54 · 1610 阅读 · 0 评论 -
读取Hadoop分布式文件系统中的内容
先上代码:package com.hadoop;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import o...原创 2018-05-27 15:42:53 · 437 阅读 · 0 评论 -
Hadoop-2.7.3常见问题解决
问题1:提示如下信息:Java HotSpot(TM) Client VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack g原创 2017-05-18 13:38:13 · 7776 阅读 · 0 评论 -
hadoop三个配置文件的参数含义说明
转载自:hadoop三个配置文件的参数含义说明1 获取默认配置配置Hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版转载 2017-07-06 11:03:03 · 1028 阅读 · 0 评论 -
7个实例全面掌握Hadoop MapReduce
转载自:http://mp.weixin.qq.com/s/jW174XImD_nE7VN5-awTTw本文旨在帮您快速了解 MapReduce 的工作机制和开发方法,解决以下几个问题:MapReduce 基本原理是什么?MapReduce 的执行过程是怎么样的?MapReduce 的核心流程细节如何进行 MapReduce 程序开发?(转载 2017-06-19 09:57:39 · 3117 阅读 · 1 评论 -
Hadoop实战学习(3)-手机流量统计
先装备一个txt文档,内容如下:13726230501 200 110013396230502 300 120013892730503 400 130013897230503 100 30013597230534 500 140013597230534 300 1200第1列表示手机号码,第2列表示上行流量,第3列表示下行流量。需求:要把同一个用户的上行流量、下行原创 2017-06-19 14:56:35 · 1866 阅读 · 0 评论 -
Hadoop-2.7.3集群卡在INFO mapreduce.Job: Running job: job_1457182697428_0001
该篇文章是在完全分布式的前提下。看了网上的一些说法,主要有2种方法:方法一:说的是修改yarn-site.xml配置文件。其主要属性如下:(1)yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN原创 2017-03-07 23:07:11 · 5349 阅读 · 0 评论 -
hadoop的hdfs常用文件操作命令
输入:hadoop,hadoop dfs,hdfs这些命令后可以查看命令说明。以下内容转载自:hdfs常用文件操作命令基本格式:hadoop fs -cmd 1.lshadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件2.puth转载 2017-03-21 23:09:42 · 1314 阅读 · 0 评论 -
Hadoop实战学习(1)-WordCount
环境:Hadoop:2.7.3,JDK:1.8.0_111,ubuntu16.0.4随意准备一个txt文档,输入一些单词。txt文档命名为file.txt。然后上传到hdfs当中:hdfs dfs -put ~/file.txt input。这里的input是事先创建好的目录。可以通过hadoop fs -mkdir input命令进行目录创建。还有原创 2017-03-21 23:17:29 · 541 阅读 · 0 评论 -
Hadoop源码下载及Eclipse导入后常见问题解决
转载自:Eclipse导入Hadoop源码1. 安装环境介绍如下:系统:Ubuntu14.04Hadoop版本:hadoop-2.5.0(点击下载)Java版本:openjdk-1.7.0_55Eclipse版本:Release 4.4.0 (点击下载)2. 把下载Hadoop源码包 hadoop-2.5.0-src.tar.gz 解压到工作目录(本文为/home/转载 2017-03-22 10:33:15 · 2174 阅读 · 0 评论 -
Hadoop-2.7.3环境下Hive-2.1.1安装配置。
环境:ubuntu-16.0.4;jdk1.8.0_111;apache-hadoop-2.7.3;apache-hive-2.1.1。这里只记录Hive的安装。首先从官网上下载所需要的版本,本人下载的apache-hive-2.1.1-bin.tar.gz。放到用户主目录下面。(1)解压: $tar -zxvf apache-hive-2.1.1-bin.tar.原创 2017-03-26 17:49:48 · 3036 阅读 · 0 评论 -
HBase-1.3.0+zookeeper-3.4.10+hadoop-2.7.3完全分布式安装
环境:Linux16.0.4,Hadoop-2.7.3,zookeeper-3.4.10,HBase-1.3.0这里,我已经安装好了hadoop完全分布式集群(不会安装的网页可以在网上百度,有很多教程),节点为:Master(namenode) ip:192.168.8.4Slave1(datanode) ip:192.168.8.5Slave2(datanode)原创 2017-05-24 22:49:59 · 2208 阅读 · 0 评论 -
hadoop常用web功能
http://Master:8088 查看集群状态(需要先启动yarn)http://Master:50070 查看HDFS系统(适用于2.x版本,1.x版本好像是50030)http://Master:19888 查看JobHistory(需要先启动jobHistoryserver,执行mr-jobhistory-daemon.sh start historyse原创 2017-06-18 23:20:45 · 1927 阅读 · 0 评论 -
Hadoop分布式集群文件分发及命令执行
安装好分布式系统过后,如果节点过多,一个节点一个节点去分发文件太麻烦。这里要使用分发。自己编写脚本。执行命令的脚本为xcall.sh:#!/bin/bashparams=$@i=1for((i=1 ;i <=3 ;i=$i+1 ));do echo ==========Server$i $params========== ssh Server$i "source /etc/p...原创 2018-06-02 12:31:30 · 2412 阅读 · 0 评论