- 博客(23)
- 收藏
- 关注
原创 Spring3.1新属性管理API:PropertySource、Environment、Profile
Spring3.1提供了新的属性管理API,而且功能非常强大且很完善,对于一些属性配置信息都应该使用新的API来管理。虽然现在Spring已经到4版本了,这篇文章来的晚点。 新的属性管理APIPropertySource:属性源,key-value属性对抽象,比如用于配置数据PropertyResolver:属性解析器,用于解析相应key的valueEnviro
2014-01-08 16:03:11
1546
1
原创 系统API模块——某大型互联网企业用户上网行为日志分析系统
第一部分: 需求分析 用户上网区域分布及变化-user_online_info_area(Hive)字段名地区用户数 日期 字段类型String bigint String
2014-01-07 09:24:33
1715
原创 项目背景介绍——某大型互联网企业用户上网行为日志分析系统
项目目的• 通过分析,用户的上网日志,来分析用户的一些访问行为喜好。进而进行精准的广告投放与营销• 同时记录用户的上网行为,可以掌握用户的上网情况,如时间、频次等实际生产环境• 每天约有 5T 的数据• 实际运行节点到达 100• 涉及到技术 Hadoop,Hive,HBase,Zookeeper,Ozzie第二部分: 项目架构
2014-01-07 09:23:48
2841
原创 MapReduce
MapReduceMapReduce: 先映射(即从一种形式转化到另一种形式)(map) 后合并结果(reduce),就这么个东西。 拆成多个子任务(map)--->然后合并结果(reduce)。 还有容错功能? 一台机器挂了,咋办? 映射---化简 提供这么一个框架。 baidu百科http://ba
2013-07-04 08:57:05
819
原创 HDFS Java开发
HDFS Java开发搭建HDFS开发环境1、导入Hadoop Jar包2、建立resources文件夹,加配置文件(core-site.xml hdfs-site.xml)3、new Configuration 进行操作 Configuration cfg = new Configuration();cfg.addResource();/
2013-07-03 14:02:20
1101
原创 Hadoop HDFS——Hadoop实战初级部分学习笔记
5、Hadoop HDFSHDFS 分布式文件系统,高容错性,部署到成本低的硬件; HDFS架构设计典型的观察者结构,NameNode(1)-----(*)DataNode, NameNode存储元数据,DataNode存小数据, HDFS设计目标假设节点失效是常态,任何一个节点挂了,不影响使用(自动的备份,副本);简单一致的模型,假设一次写
2013-07-02 08:54:10
1937
原创 Hadoop脚本——Hadoop实战初级部分学习笔记
4、Hadoop脚本1、bin目录hadoop:hadoop shellhadoop-config.sh 给hadoop的一些变量赋值 HADOOP_HOME、HADOOP_CONF等 hadoop-deamon.sh call salves.sh start-all.shstart-dfs shstart-
2013-07-02 08:53:47
1367
原创 安装Hadoop——Hadoop实战初级部分学习笔记
3、安装Hadoop 1、window上装 (建议xp 玩玩就行了,实际要在linux)1.1、装JDK(不要装到带空格等目录中。。)1.2、安装cygwin需要安装oenSSL、VIM、Base1.3、在cygwin安装SSHD ssh-host-config1.4、启动SSHD net start sshd
2013-07-01 12:29:26
880
原创 典型云平台介绍——《Hadoop实战初级部分》学习笔记
2、典型云平台介绍Google的云计算平台:主要MapReduce、GFS、BigTable。IBM“蓝云”Amazon弹性计算云;国内盛大云 特点易管理灵活性高资源利用率高可靠性低成本安全性 问题数据隐私数据安全 学习云计算,希望能找个高薪工作。加油。谢谢私塾在线这么好
2013-07-01 12:29:02
1098
原创 Hadoop入门——《Hadoop实战初级部分》学习笔记
1、入门:现在云计算比较火,为了赶时髦,买了个视频跟着学。 1、为什么学?大数据,比如1分钟 twitter发超10w信息,facebook浏览量600w,还有如国内的taobao:尤其光棍节。按需推送信息更精确的推广告 现在做hadoop的还比较少,薪水会很高,如android刚出的时候。 2、什么是云计算?
2013-06-29 14:38:02
1175
原创 Hadoop 在Linux 单机上伪分布式 的安装过程
Hadoop 在Linux 单机上伪分布式 的安装过程:1,安装JDKsudo apt-get install openjdk-6-jdk2,配置JAVA 环境变量输入命令:sudo gedit /etc/profile打开profile 在文件最下面加入如下内容:# set java homeexport JAVA_HOME=/usr/
2013-06-29 14:37:02
833
原创 配置Eclipse的Hadoop插件时无法连接HDFS的解决办法
如果直接将下载Hadoop-eclipse-plugin-0.20.203.0.jar复制到eclipse的插件目录中,在连接DFS时会出现错误,提示信息为: "error: failure to login",弹出的错误提示框内容为"An internal error occurred during: "Connecting to DFS hadoop". org/apache/common
2013-06-29 14:36:27
1169
原创 Ubuntu 13.04上搭建Hadoop环境
首先要了解一下Hadoop的运行模式:单机模式(standalone)单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于
2013-06-29 14:35:29
928
原创 使用0.22.X系列版本的Hadoop
使用0.22.X系列版本的Hadoop快有一年时间了,主要集中在HDFS上。期间自己参与了部署Hadoop集群(1 Server + 20PC),也参与了分析HDFS的源码。这几天,由于项目需要,转移到了0.22.0版本了,需要重新部署Hadoop集群。这次部署要牵扯到mapreduce项目下contribute中的raid。目的是:部署0.22.0版本Hadoop的集群,配置并试用其ra
2013-06-29 14:34:55
785
原创 Hadoop Web项目使用Ajax监控Mapreduce过程
adoop Web项目的改进版,新增Ajax技术。Ajax主要是在浏览器中输入hdfs路径时的后台检查和在监控任务执行状态时使用Ajax去和后台交互,获取job信息。项目代码下载免费下载地址在 http://linux.linuxidc.com/用户名与密码都是www.linuxidc.com具体下载目录在 /2013年资料/6月/17日/Hadoop Web项目使
2013-06-29 14:34:14
803
原创 需要调整一些Hadoop的参数配置
在工作过程中,经常需要调整一些Hadoop的参数配置,所以经常会遇到各种各样的问题。比如改了个配置怎么突然namenode起不来啦,加了个jar包怎么让hadoop的jvm加载啊,如何设定log目录啦等等,每次都需要仔细的查一遍启动脚本才能找到原因,费时又费力,因此专门总结了一下以便不时之需。cloudera的hadoop的启动脚本写的异常复杂和零散,各种shell脚本分散在系统的各个角落
2013-06-29 14:33:39
687
原创 Hadoop启动脚本全面详解
在工作过程中,经常需要调整一些Hadoop的参数配置,所以经常会遇到各种各样的问题。比如改了个配置怎么突然namenode起不来啦,加了个jar包怎么让hadoop的jvm加载啊,如何设定log目录啦等等,每次都需要仔细的查一遍启动脚本才能找到原因,费时又费力,因此专门总结了一下以便不时之需。cloudera的hadoop的启动脚本写的异常复杂和零散,各种shell脚本分散在系统的各个角落
2013-06-29 14:33:23
634
原创 Hadoop的计算能力调度算法
最近几个星期一直在修改Hadoop的计算能力调度算法,遇到了这样那样的问题。 我修改的版本是hadoop-0.20.2 第一步: 将hadoop的源码加载到eclipse中配置使用ant编译 第二步: 根据需要修改源码 第三步: 使用ant编译修改内容,这里要提醒的就是要保证编译平台的JDK和运行平台的JDK相同 ant编译的方法是:
2013-06-29 14:31:56
665
原创 使用 HDFS 保存大量小文件
使用 使用使用 使用 HDFS 保存大量小文件的缺点:1.Hadoop NameNode 在内存中保存所有文件的“元信息”数据。据统计,每一个文件需要消耗 NameNode600 字节内存。如果需要保存大量的小文件会对NameNode 造成极大的压力。2.如果采用 Hadoop MapReduce 进行小文件的处理,那么 Mapper 的个数就会跟小文件的个数成线性相关(备注:FileIn
2013-06-29 14:31:02
1148
原创 Hadoop+ZooKeeper+HBase集群配置
公司业务需要使用Hadoop,经过4天,安装完成,记录一下通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker,这些机器是masters。余下的机器即作为DataNode也作为TaskTracker,这些机器是slaves。1 先决条件确保在你集群中的每个节点上都安装了所有必需软件:JDK,sshssh 必须安装并且保证
2013-06-29 14:28:44
757
原创 Zookeeper集群配置
在我完成了Hadoop集群配置以后(http://www.linuxidc.com/Linux/2013-06/86347.htm )就需要安装zookeeper每个电脑做相同的操作安装cd /usr/local/srctar zxvf zookeeper-3.4.5.tar.gzmv zookeeper-3.4.5 /usr/local/zookeeperchown
2013-06-29 14:27:44
614
原创 Hadoop入门--Hadoop2伪分布式安装
Hadoop2伪分布式安装: 1、Java环境变量配置 在.bash_profile文件中加入如下环境变量: ####################JAVAHOME#################### exportJAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk.x86_64 exportJRE_HOME=$JAVA_H
2013-06-29 14:27:18
539
原创 Hadoop序列化文件SequenceFile
Hadoop序列化文件SequenceFile主要用于解决大量小文件问题,SequenceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将对序列化到文件中,一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。理解点: 1、二进制数据格式,在hadoop上进行mr任务时使用,一般是中间过程mr的输入输出数据
2013-06-29 14:26:43
788
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人