- 博客(101)
- 资源 (9)
- 收藏
- 关注

原创 专栏收藏(收集比较优秀的博主、博文,供学习)
1、http://zz563143188.iteye.com/linkjava,oracle,mysql,jquery,linux,Struts,Spring,Hibernate,maven webservices,Nosql,hudoop,git,osgi,easymock,nginx,jbpm,jni,jpa等资料下载地址 http://pan.baidu.com/share/ho
2015-01-26 18:09:14
642
原创 [置顶]01_Hadoop学习笔记内容说明
Hadoop学习笔记内容说明_001、 观看云帆大数据梦琪老师的《企业级 Hadoop 1.x 应用开发基础课程》2014年4月左右版本。2、 博客是在梦琪老师的随堂笔记上改动的,方便的是自己以后回顾学习,也或许能给需要改方面帮助的同行提供些许帮助,在此非常感谢梦琪老师。3、 本系列是在CentOS6.4+hadoop1.2.1上实验通过的。4、 由于本人刚刚接触,对Lin
2016-03-23 12:53:48
486
原创 虚拟机(VMWare)NAT 模式,配置静态IP上网的问题
问题描述: 感觉问题解决了回过头来想就很简单,但是没解决就怎么也找不到问题,知识储备捉襟见肘。针对这个问题我好长时间才弄好,各种找资料,也证明本人筛选有用博客的能力比较低,先让我哭会去…… 在虚拟的实验,特别是分布式集群环境中,我们需要配置静态IP地址,我们又想上网,往往我们是二者不可兼得,但是这个很明显有解决的办法,但是我们就是找不到,下面我从网上找的博客设置成功,特别感谢!设置
2016-03-23 12:53:39
3602
1
原创 028_MapReduce中的计数器Counter的使用
一、分析运行wordcount程序屏幕上打印信息##运行wordcount单词频率统计程序,基于输出输出路径。[hadoop@hadoop-master hadoop-1.2.1]$ hadoop jar hadoop-examples-1.2.1.jar wordcount /wc/mininput /wc/minoutput##告知输入路径下有几个文件需要处理16/03/14
2016-03-23 12:53:34
780
原创 027_编写MapReduce的模板类Mapper、Reducer和Driver
模板类编写好后写MapReduce程序,的模板类编写好以后只需要改参数就行了,代码如下: 1 package org.dragon.hadoop.mr.module; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import or
2016-03-23 12:53:31
1413
原创 026_默认的MapReduce Driver(最小驱动问题)
1、 最小配置的MapReduce Driver读取输入文件中的内容,输出到指定目录的输出文件中,此时文件中的内容为:Key---输入文件每行内容的起始位置。Value---输入文件每行的原始内容。输出文件中的内容就是:key+\t+value. 1 package org.dragon.hadoop.mapreduce.app.minDriver; 2 3 im
2016-03-23 12:53:29
1096
原创 025_MapReduce样例Hadoop TopKey算法
1、需求说明2、 某个文件中某列数据的最大值。思路:对每一个列的值依次进行比较,保存最大的值进行输出,算法的思想类似于排序算法(快速和冒泡排序)。Mapper:因为只是在wordcount统计的基础上统计的,只是针对一个列,故可以找到最大值后,将最大值和对应的text给,cleanup中的context.write()方法,然后输出。此时不需要Reducer。 1 p
2016-03-23 12:53:26
522
原创 024_MapReduce中的基类Mapper和基类Reducer
内容提纲1) MapReduce中的基类Mapper类,自定义Mapper类的父类。2) MapReduce中的基类Reducer类,自定义Reducer类的父类。1、Mapper类API文档1) InputSplit输入分片,InputFormat输入格式化2) 对Mapper输出结果进行Sorted排序和Group分组3) 对Mapper输出结果依据Reducer个
2016-03-23 12:53:23
517
原创 023_数量类型练习——Hadoop MapReduce手机流量统计
1) 分析业务需求:用户使用手机上网,存在流量的消耗。流量包括两部分:其一是上行流量(发送消息流量),其二是下行流量(接收消息的流量)。每种流量在网络传输过程中,有两种形式说明:包的大小,流量的大小。使用手机上网,以手机号为唯一标识符,进行记录。有记录,包括很多信息,需要的信息字段。 实际需要的字段: 手机号码、上行数据包数、下行数据包数、上行总流量、下行总流量。2)
2016-03-23 12:53:21
1066
原创 022_Hadoop中的数据类型(Writable、WritableComparable、Comparator、RawComparator…)
1、 在hadoop中所有的key/value都必须实现Writable接口,有两个方法,分别用于读(反序列化)和写(序列化)操作。参考代码: 1 package org.dragon.hadoop.mapreduce.app; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5
2016-03-23 12:53:18
772
原创 021_在Eclipse Indigo中安装插件hadoop-eclipse-plugin-1.2.1.jar,直接运行wordcount程序
1、工具介绍 Eclipse Idigo、JDK1.7-32bit、hadoop1.2.1、hadoop-eclipse-plugin-1.2.1.jar(自己网上下载)2、插件安装步骤 1)将hadoop-eclipse-plugin-1.2.1.jar放到eclipse安装目录的plugins文件夹中,重新启动eclipse。 2)打开Window-->Preferen
2016-03-23 12:53:15
917
原创 020_自己编写的wordcount程序在hadoop上面运行,不使用插件hadoop-eclipse-plugin-1.2.1.jar
1、Eclipse中无插件运行MP程序 1)在Eclipse中编写MapReduce程序 2)打包成jar包 3)使用FTP工具,上传jar到hadoop 集群环境 4)运行2、具体步骤说明:该程序运行完被我删除了,具体添加哪些包不太清楚,但是最保险的是把有可能用到的都添加进去,添加情况如下:1)创建工程、类2)添加文件夹conf、lib,然后将指定的jar包添加
2016-03-23 12:53:12
530
原创 019_Map Task数目的确定和Reduce Task数目的指定
注意标题:Map Task数目的确定和Reduce Task数目的指定————自然得到结论,前者是后者决定的,后者是人为指定的。查看源码可以很容易看懂1、MapReduce作业中Map Task数目的确定: 1)MapReduce从HDFS中分割读取Split文件,通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元,一个Split文件对应一个
2016-03-23 12:53:10
668
原创 018_Reduce Shuffle Phase详细流程分析
一、Reduce Shuffle Phase图示二、Reduce Shuffle Phase具体流程分析1、 Copy过程,简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher),通过HTTP方式请求map task所在的TaskTracker获取map task的输出文件。因为map task早已结束,这些文件就归TaskTracker管理在本地磁盘中。2、M
2016-03-23 12:53:07
756
原创 017_Map Shuffle Phase详细流程分析
一、概述 每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并,生成最终的正式输出文件,然后等待reduce task来拉数据。二、细致流程分析1、 在map task执行时,它的输入数据来源于HDFS的block,当然在M
2016-03-23 12:53:04
1387
原创 016_笼统概述MapReduce执行流程结合wordcount程序
数据传输 File--> -->map(key,value) --> mapResult --> partition --> sort --> combiner(可选,本地化规约) --> combiner --> 合并 --> sort --> reduce --> reduceResult --> File核心:合并和排序一、
2016-03-23 12:53:01
885
原创 015_[小插曲]看黄老师《炼数成金Hadoop应用开发实战案例》笔记
1、大数据金字塔结构 Data Source-->Data Warehouses/Data Marts-->data exploration-->Data Mining-->Data Presentations-->Making Decisions2、从业职位 业务人员、ETL工程师、数据仓库工程师(及时需求)、数据分析师、数据展现设计师、 IT支持人员:运维。程序员、生产线数据管
2016-03-23 12:52:58
1156
原创 014_HDFS存储架构、架构可靠性分析、副本放置策略、各组件之间的关系
1.HDFS存储架构(1)HDFS 架构 —— 文件1)文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)2)NameNode 是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等3)DataNode 在本地文件系统存储文件块数据
2016-03-23 12:52:54
1733
原创 013_HDFS文件合并上传putmarge功能(类似于hadoop fs -getmerge)
场景 合并小文件,存放到HDFS上。例如,当需要分析来自许多服务器的Apache日志时,各个日志文件可能比较小,然而Hadoop更合适处理大文件,效率会更高,此时就需要合并分散的文件。如果先将所有文件合并,在复制上传到HDFS上的话,需要占用本地计算机的大量磁盘空间。采取在向HDFS复制上传文件的过程中将小文件进行合并,效果会更好。开发一个PutMerge程序,用于将合并文件后放入HDFS
2016-03-23 12:52:50
1353
原创 012_Eclipse中使用 HDFS URL API 事例介绍
本事例其实和使用hdfs FileSystem API差不多,FileSystem API也是通过解释成URL在hdfs上面执行的,性质相同,但是实际中用 的fFileSystem会多一点,源码如下:package org.dragon.hadoop.hdfs;import java.io.IOException;import java.io.InputStream;imp
2016-03-23 12:52:48
344
原创 011_Eclipse中使用HDFSFileSystemAPI事例介绍
需求 1.文件操作1)上传本地文件到HDFS2)读取文件3)在hadoopfs中新建文件,并写入4)重命名文件5)删除hadoopfs上的文件2.目录操作1)读取某个目录下的所有文件2)在hadoopfs上创建目录3)删除目录3. HDFS信息1)查找某个文件在HDFS集群的位置2)获取HDFS集群上所有节点名称信息准备工作: 1、新建一
2016-03-23 12:52:45
1050
原创 011_用eclipse打开hadoop1.2.1源码出现The method getSplits(JobConf, int) is undefined for the type Object错误
出现的错误截图:此时Eclipse使用的jdk1.8,将编译环境改成jdk1.7就行了,解决。没问题了。下面观点是参考如下网址,未经验证。参考:http://blog.youkuaiyun.com/oneinmore/article/details/45332279这些都是泛型相关的错误,因此我猜测是eclipse在解析代码时对于泛型都要临时生成一些类,而这些类的生成方法在不同版本
2016-03-23 12:52:40
1323
原创 010_Hadoop配置测试成功后关机重启浏览器打不开dfs和MP
针对Hadoop成功配置并测试通过,第二次(关机重启)后Hadoop打不开的问题,一般都是因为防火墙的问题,将防火墙关闭后就可以了.更细致的现象为start-all.sh启动,五大守护进程启动成功,并且在CentOS的浏览器中能够访问hadoop-master.dragon.org:50070。而到了windows系统中就不能访问了。$sudo service ipstatles stop
2016-03-23 12:52:38
427
原创 09_Hadoop启动或停止的三种方式及启动脚本
1、Hadoop启动或停止1)第一种方式分别启动 HDFS 和 MapReduce,命令如下:启动:$ start-dfs.sh $ start-mapred.sh 停止:$ stop-mapred.sh $ start-dfs.sh 2)第二方式全部启动或者全部停止启动:start-all.sh 启动顺序:NameNode、DataNode、Sec
2016-03-23 12:52:36
1200
原创 07_Warning $HADOOP_HOME is deprecated.去除办法
Warning $HADOOP_HOME is deprecated.去除办法 警告的出现:解决方案:第一种:去除【/etc/profile】文件中【export HADOOP_HOME=/opt/modules/hadoop-1.2.1】,并且使其生效,命令如下:# source /etc/profile出现的原因:在 hadoop-config.sh 脚本中,有
2016-03-23 12:52:33
296
原创 08_三大配置文件和五大守护进程
1、配置文件 三大基础配置文件: 1)core-site.xml:配置HadoopCommonProject相关的属性配置,Hadoop1.x框架基础属性的配置 2)hdfs-site.xml:配置HDFSProject文件系统相关的属性 3)mapred-site.xml:配置与MapReduce框架相关的属性 配置文件:1)masters:主节点,
2016-03-23 12:52:31
316
原创 06_Hadoop配置伪分布式模式详解
查看IP地址,设为手动模式: 配置hadoop用户sudo权限su切换到root身份,配置vim /etc/sudoers文件,加入hadoop ALL=(root)NOPASSWD:ALL 配置/opt文件夹的属主将/opt文件夹的属于由root:root改为hadoopsudo -R hadoop:hadoop /opt 关闭防火墙
2016-03-23 12:52:28
214
原创 05_安装本地(单机)模式
软件安装的规则: /opt --- 父目录/opt/modules -- 存放软件的安装目录/opt/softwares -- 存放软件包(tar 包,bin 文件,zip 文件等)/opt/tools -- 存储工具目录(Eclipse 等)/opt/data -- 存储一些测试数据/home/hadoop
2016-03-23 12:52:26
229
原创 04_Apache Hadoop 生态系统
内容提纲: 1)对 Apache Hadoop 生态系统的认识(Hadoop 1.x 和 Hadoop 2.x)2) Apache Hadoop 1.x 框架架构原理的初步认识3) Apache Hadoop 1.x 安装的三种模式Hadoop 1.x 生态系统ETL: 提取à转换à加载:从数据库中获取数据,并进行一系列的数据清理和清洗筛选,将合格的数据进行转换成一定的
2016-03-23 12:52:24
696
原创 03_Hadoop简单介绍以及版本信息
一、海量数据: 量:大、数目多,数据量到达PB、ZB级别,条目数到达几十亿条、百亿条1)存储:分布式,集群的概念,管理(主节点、从节点),HDFS(HadoopDistributedFileSystem)2)分析:分布式,并行,离线计算框架,管理(主节点、从节点),MapReduceApacheHadoopLogo,一只会飞的大象二、Hadoop与Google的关系
2016-03-23 12:52:21
292
原创 02_虚拟机的安装和SecureCRT、FileZilla、Xmanage、UltraEdit工具的介绍
上述几个工具连接不成功的情况,很多时候是因为ssh服务没有安装,CentOS默认安装,不会出现问题,Ubuntu桌面版默认没有安装,需要手动安装,安装部分参考下文SecureCRT部分一、安装CentOS及配置主机网络 安装CentOS6.4-x64镜像,在网上下载VMWare虚拟机和CentOS镜像,安装不在详述。 安装时注意事项:安装的时候不要选择最小化安装,选择GNO
2016-03-23 12:52:19
952
原创 sudoers文件设置sudo命令无密码(root密码)登录
参考博客:http://xvshell.iteye.com/blog/18380931. 当用户执行sudo时,Linux系统会去寻找/etc/sudoers文件,并且这是主动的,判断用户是否有执行sudo命令的权限2. 如果用户有执行sudo的权限,让用户输入自己的密码来确认,这里比使用root的密码强多了,赞一下3. 如果密码输入正确,开始执行sudo后面跟的shell命令4. 如果要切换
2016-03-23 12:52:14
4823
原创 CentOS7,将文本模式改成图形界面模式
在以前通过vi /etc/inittab,将3修改成5。但是在centOS7之后将修改的办法换掉了,执行systemctl set-default graphical.target.根据提示进行一步一步操作。包括删除原来的default .target,创建graphical.target,网上的教程很多。但是由于安装的问题,你怎么改都不成功,因为图形桌面你根本没装。现象如下图:原因是安装
2016-03-23 12:52:10
5109
原创 Ubuntu中输入输出重定向及管道技术简述
输出1、标准输出 定义:程序在默认情况下输出结果的地方(stdout)。2、输出重定向 定义:用于把数据的输出转移到另一个地方去。3、Ubuntu中例子 $ls > ~/ls_out ##不显示在显示器上而是输入到文件ls_out中 uname -r > ls_out ## output the kernal information to the file
2016-03-23 12:52:05
3615
原创 Git版本控制系统VCS
<!--@page { margin: 2cm } P { margin-bottom: 0.21cm }-->Git版本控制系统VCS一、版本控制系统基本情况说明 版本控制是一种记录一个或者若干个文件内容的变化,以便将来查阅特定版本修订情况的系统1、作用 记录文件的所有历史变化 随时可回复到任何一个历史状态 多人协作开发或者修改 错误恢复
2016-03-23 12:52:01
553
原创 VMWare中安装windowsXP遇到的问题
XP系统安装1、安装Windows和安装linux不一样,创建虚拟机完成后Linux自动根据硬盘进行系统安装,不需要提前分区。而windows必须进行提前分区,这个分区是在虚拟磁盘上完成的,就是你创建虚拟机预留的磁盘大小。不会对你的整个磁盘产生影响。否则会报错:错误提示:output error file to the following location:[ A:GHOST ERR.TXT]
2016-03-23 12:51:56
425
原创 版本控制系统Subversion
系统提供撤销的功能对我们实际开发中特别重要。改动后撤销几乎也是我们每个人经常做的事情。再多人进行同一个项目的开发或者测试的时候,版本的唯一性(类似于临界区资源),也就是说A 和B 两个人协同工作的时候不能同时对同一个文件改动,并保存成功。否则就会出现不一致问题。版本控制系统很好的解决了这一问题,并且提供日志文件,记录改动的各种信息,方便撤销操作。版本控制系统就是一套在程序开发过程中存储源代码所有修
2016-03-23 12:51:50
285
原创 Ubuntu12.04等的输入法问题 中英文切换 fitcx
一般乌班图系统安装的时候会提醒大家选择安装的输入法,若大家选择中文安装,那么支持中文没得说,当选择英文安装的时候,发现整个系统环境是英文,并且根本不能输入中文,想baidu一下都是用pinyin百度,纠结的一笔,每次修改都浪费时间,所以把自己遇到的简单记下,方便自己以后忘记了在修改,二是大家需要的也能查看,利己益人。前提:安装时选择的是英文系统。需求:1、安装成中文的环境(自然支持中文的输
2016-03-23 12:51:47
2452
原创 shell编程之正则表达式
1、正则表达式 其实就是一种规范,也就是模式,约束字符串等符合什么样的格式,比如要求字符串必须a开头,t结尾,符合这样条件的字符串就要用到正则表达式。2、两套库 GNU/Linux中有有两套库用足正则表达式编程,POSIX库,自带的;PCRE库,Perl,功能比较全,本文采用Perl。3、初体验 $egrep ""^a.*t$" /usr/share/dict/words
2016-03-23 12:51:38
294
选课系统设计与实现(传智播客C#+SQL Server)
2015-01-17
图书馆书籍借阅系统设计与实现(两个版本) winform
2014-06-04
基于WebServices简易网络聊天工具的设计与实现
2014-05-29
基于Web服务简易网络聊天工具的设计与实现
2014-04-29
基于Web的实验室管理系统(C#)
2014-04-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人