
cloud
文章平均质量分 75
追寻北极
没有月亮的晚上,我们相信星光。没有路可走的时候,我们相信远方.--
展开
-
hadoop 的MapReduce原理和学习心得
mapreduce是hadoop的核心组成,是专门用于数据计算。主要掌握 map、reduce 函数的特点、如何写函数。我的开发环境是在eclipse,运行程序的时候经常会出现 java 内存不足的情况,需要修改ecplise的jdk使用自己安装的JDK就行。对于 Hadoop 的 map 函数和 reduce 函数,处理的数据是键值对,也就是说 map 函数接收的数据是键值对,两转载 2014-11-20 12:05:51 · 4450 阅读 · 0 评论 -
MapReduce操作HBase
运行HBase时常会遇到个错误,我就有这样的经历。 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times检查日志:org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.Clie转载 2014-11-20 16:56:41 · 454 阅读 · 0 评论 -
hadoop 笔记
iPhone1,4个国家2,iPhone免费应用排名(24),iPhone付费应用排名(24),iPhone畅销应用排名(24)=72榜单3,每个类型4000个game总url=4*72*400=115200iPaid1,4个国家2,iPhone免费应用排名(24),iPhone付费应用排名(24),iPhone畅销应用排名(24)=72榜单3,每个原创 2014-11-25 13:57:49 · 570 阅读 · 0 评论 -
HBase vs Cassandra:我们迁移系统的原因
我的团队近来正在忙于一个全新的产品——即将发布的网络游戏www.FightMyMonster.com。这让我们得以奢侈地去构建一个全新的NOSQL数据库,也就是说,我们可以把恐怖的MySQL sharding和昂贵的可伸缩性抛在脑后了。最近有很多人一直在问,为什么我们要把注意力从HBase上转移到Cassandra上去。我确认,确实有这样的变化,实际上我们基本上已经把代码移植到了Cassandra转载 2014-11-26 09:32:16 · 2040 阅读 · 0 评论 -
Cassandra与HBase的大数据对决 谁是胜者?
众多基于Bigtable技术的开源项目正在通过不同的方式实现高扩展性、高灵活性、分布式及宽列数据存储等功能,Cassandra和HBase就是其中的代表。 在大数据这一全新的领域里,Bigtable数据库技术非常值得我们关注,因为这一技术是由谷歌的工程发明的,而谷歌是一家公认的非常擅长管理海量数据的公司。如果你对此非常了解,那么你一家知道也熟悉Cassandra和HBas转载 2014-11-26 09:33:20 · 2732 阅读 · 0 评论 -
Cassandra和HBase主要设计思路对比
CassandraHBase一致性Quorum NRW策略通过Gossip协议同步Merkle Tree,维护集群节点间的数据一致性单节点,无复制,强一致性可用性1,基于Consistent Hash相邻节点复制数据,数据存在于多个节点,无单点故障。2,某节点宕机,hash到该节点的新数据自动路由到下一节点做 hinted handoff转载 2014-11-26 09:34:49 · 846 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2014-11-26 09:35:22 · 565 阅读 · 0 评论 -
解读NoSQL技术代表之作Dynamo
NoSQL在过去的一年里,逐渐已经成为了家喻户晓的东西,我(54chen)自从去年开始人人网的NoSQL系统Nuclear的研发以来,一直看NoSQL越来越热,越来越引来大家的围观。受InfoQ中文站编辑之托,特作此文,一来作为过去一年的总结,二来希望对NoSQL系统在国内的发展和推广尽绵薄之力。NoSQL背后的两种模式NoSQL其实并不是什么妖魔鬼怪,相反,NoSQL的真谛其实应转载 2014-11-26 09:37:50 · 706 阅读 · 0 评论 -
linux安装Cassandra数据库
为了安全起见,建议直接上Java 1.7版本的JRE,因为Cassandra是运行于java环境之上,所以JRE是必须要安装的。不过我这里安装的是java jdk,当初也是为了省事,直接拿过来就安装的,省的下载麻烦。开始我是用的java jdk 1.6 版本的,结果搞了好长时间都不行,最后换成1.7版本的后,就OK了。--------------------------------转载 2014-11-26 09:42:49 · 1062 阅读 · 0 评论 -
centos安装mongodb
1> 下载: wget http://fastdl.mongodb.org/linux/mongodb-linux-i686-2.4.2.tgz2> 解压: tar -zxvf mongodb-linux-i686-2.4.2.tgz3> 创建数据库和日志的存储目录: mkdir -p /usr/local/mongodb/data/转载 2014-11-26 09:43:24 · 554 阅读 · 0 评论 -
cassandra 命令行操作
首先使用cassandra-cli 进入命令行:$ bin/cassandra-cli -host 192.168.0.1011.创建keyspaceCREATE KEYSPACE usertable with placement_strategy = 'org.apache.cassandra.locator.SimpleStrategy' and strategy_options转载 2014-11-26 09:47:01 · 1794 阅读 · 0 评论 -
分布式 Key-Value 存储系统:Cassandra 入门
Apache Cassandra 是一套开源分布式 Key-Value 存储系统。它最初由 Facebook 开发,用于储存特别大的数据。 Cassandra 不是一个数据库,它是一个混合型的非关系的数据库,类似于 Google 的 BigTable。本文主要从以下五个方面来介绍 Cassandra:Cassandra 的数据模型、安装和配制 Cassandra、常用编程语言使用 Cassandr转载 2014-11-26 09:51:12 · 824 阅读 · 0 评论 -
hive数据从文本导入
1,建表语句(id int, name string,age int, tel string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'STORED AS TEXTFILE;2,url.txt文本原创 2014-11-25 13:32:18 · 803 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服转载 2014-11-25 11:00:39 · 687 阅读 · 0 评论 -
Hive安装
1. 下载Hive下载地址:http://www.fayea.com/apache-mirror/hive/,我下载的是HiveHive-0.9.0(http://www.fayea.com/apache-mirror/hive/hive-0.9.0/hive-0.9.0.tar.gz)。2. 把Hive移动到/home/hadoop目录下并解压hadoop@ubuntu:转载 2014-11-25 13:36:22 · 568 阅读 · 0 评论 -
分布式系统概述(Hadoop与HBase的前生今世)
古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样:我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。—— Grace Hopper(计算机软件第一夫人,计算机历史上第一个BUG的发现者,也是史上最大BUG千年虫的制造者)这就是分布式。 再来看一组令人瞠目结舌的数据:2012年11月11日转载 2014-11-25 14:01:31 · 762 阅读 · 0 评论 -
Hadoop实战-中高级部分 之 Hadoop MapReduce工作原理
Hadoop RestFulHadoop HDFS原理1Hadoop HDFS原理2Hadoop作业调优参数调整及原理Hadoop HAHadoop MapReduce高级编程Hadoop IOHadoop MapReduce工作原理Hadoop 管理Hadoop 集群安装Hadoop RPC 第一部分:MapReduce工作原理转载 2014-11-20 13:37:57 · 1343 阅读 · 0 评论 -
Hadoop MapReduce原理(推荐)
先看一段代码: package com.abc;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.转载 2014-11-20 12:52:22 · 760 阅读 · 0 评论 -
Apache Gora 介绍
详情见:http://blog.youkuaiyun.com/amuseme_lu/article/details/7769017参考:http://gora.apache.org/转载 2014-11-20 11:24:20 · 870 阅读 · 0 评论 -
Nutch2.0 之 Apache Gora 介绍
Nutch 2.0 之 Apache Gora介绍-----------------1. 什么是Apache Gora Apache Gora是一个开源的ORM框架,主要为大数据提供内存数据模型与数据的持久化。目前Gora支持对于列数据、key-value数据,文档数据与RDBMS数据的存储,还支持使用Apache Hadoop来对对大数据进行分析。转载 2014-11-19 18:10:01 · 556 阅读 · 0 评论 -
Nutch 2.0 之 Apache Gora MR介绍
Nutch 2.0 之 Apache Gora MR介绍-----------------1. 介绍 Apapche Gora内建了对于Apache Hadoop的支持,而Gora的dataStore可以用来做为InputFormat与OutputFormat的输入与输出,然而这些输出的对象都会被序列化,Gora扩展了Avro的DatumWriters来实现的。转载 2014-11-19 18:02:14 · 567 阅读 · 0 评论 -
Hbase访问方式之Hbase shell
Hbase的访问方式1、Native Java API:最常规和高效的访问方式;2、HBase Shell:HBase的命令行工具,最简单的接口,适合HBase管理使用;3、Thrift Gateway:利用Thrift序列化技术,支持C++,PHP,Python等多种语言,适合其他异构系统在线访问HBase表数据;4、REST Gateway:支持REST 风格的Http API转载 2014-11-19 11:23:24 · 970 阅读 · 0 评论 -
hbase hell命令介绍
hbase提供了一个shell的终端给用户交互。使用命令hbase shell进入命令界面。通过执行 help可以看到命令的帮助信息。以网上的一个学生成绩表的例子来演示hbase的用法。namegradcoursemathartTom59787Jim489转载 2014-11-19 11:22:26 · 845 阅读 · 0 评论 -
Nutch 2.0 之 抓取流程简单分析
1. 整体流程InjectorJob => GeneratorJob => FetcherJob => ParserJob => DbUpdaterJob => SolrIndexerJobInjectorJob : 从文件中得到一批种子网页,把它们放到抓取数据库中去GeneratorJob: 从抓取数据库中产生要抓取的页面放到抓取队列中去FetcherJob: 对转载 2014-11-20 14:49:41 · 661 阅读 · 0 评论 -
在eclipse中配置hadoop插件
1.安装插件准备程序:eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse)hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下)将hadoop-0.20.2-eclipse-plugin.jar 复制到eclipse/plugins目录下,重启eclipse。转载 2014-11-20 17:42:56 · 650 阅读 · 0 评论 -
Hadoop Job的提交
一个最基本的Hadoo任务Hadoop任务提交传统的Hadoop任务提交Eclipse的hadoop插件的Hadoop任务提交在Eclipse中当做Java Application运行为什么不可以?背景用JVisualVM监视Eclipse hadoop插件的Hadoop任务提交使用Hadoop Api提交Job,完美解决方案哪些是在Client执行的?哪些是在Ha转载 2014-11-20 17:50:36 · 3367 阅读 · 0 评论 -
HBase 使用场景和成功案例
有时候了解软件产品的最好方法是看看它是怎么用的。它可以解决什么问题和这些解决方案如何适用于大型应用架构,能够告诉你很多。因为HBase有许多公开的产品部署,我们正好可以这么做。本章节将详细介绍一些人们成功使用HBase的使用场景。注意:不要自我限制,认为HBase只能解决这些使用场景。它是一个初生的技术,根据使用场景进行创新正驱动着系统的发展。如果你有新想法,认为可以受益于HBas转载 2014-11-25 10:49:06 · 698 阅读 · 0 评论 -
【HBase】图解 HDFS 工作原理
微博上看到的一张关于HDFS的图片,形象生动的解释的HDFS的工作原理,再确切一点是 写操作的的基本过程:1 一个集群中只有一个NameNode,可以有多个DataNodes2 namenode 承担 数据的位置存储信息 ,并将存储位置信息告诉client端!3 得到位置信息后,client端开始写数据4 写数据的时候是将数据分块,并存储为多份(一般为3份),放在转载 2014-11-25 11:02:10 · 875 阅读 · 0 评论 -
Hbase调用JavaAPI实现批量导入操作(应用)
将手机上网日志文件批量导入到Hbase中,操作步骤:1、将日志文件(请下载附件)上传到HDFS中,利用hadoop的操作命令上传:hadoop fs -put input / 2、创建Hbase表,通过Java操作 Java代码 package com.jiewen.hbase; import java.io.IO转载 2014-11-25 11:30:51 · 837 阅读 · 0 评论 -
HIve实战分析Hadoop的日志
1、日志格式分析首先分析 Hadoop 的日志格式, 日志是一行一条, 日志格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示: Java代码 2013-03-06 15:23:48,132 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG: /***转载 2014-11-25 11:26:09 · 716 阅读 · 0 评论 -
solr4.5 schema.xml配置文件
schema.xml配置文件是用于定义index索引库的结构,有点类似于数据表表的定义。当我们打开schema.xml配置文件时,也许会被里面密密麻麻的代码所吓倒,其实不必惊慌,里面其实就两个东西filed和fieldType。1、field–类似于数据表的字段 .....//省略 _version_" type="long" indexed="true转载 2014-11-25 15:35:09 · 636 阅读 · 0 评论 -
Solr 4.5.1 搜索引擎 环境搭建
鉴于做项目时,经常会遇到站内信息检索这样的需求,面对 LUCENE 这样的工具也懒得去研究,就暂且使用 Solr 先解决问题吧部署前准备:1. JDK 1.6 (安装就不用说了,自己百度)2. apache-tomcat-7.0.42.zip (下载就不用说了,自己百度)3. Solr 4.5.1 http://www.apache.org/dyn/clos转载 2014-11-25 16:52:53 · 638 阅读 · 0 评论 -
solr4 mysql数据库导入数据
要建立自己的全文检索,一般都需要从数据库导入数据,在原来配置的基础上,增加导入的功能,这里以mysql为例子:1、E:\softwares\green\tomcat6\solr\solr\collection1\conf\solrconfig.xml中增加[html] view plaincopy requestHandler name=转载 2014-11-26 10:26:54 · 694 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我帮大家理清每个技术的原理和思路。Pig一种操作hadoop的轻量级脚本语言,最初又雅转载 2014-11-21 08:57:37 · 572 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2014-11-21 09:33:51 · 552 阅读 · 0 评论 -
pig-0.9.2安装和配置
在安装Pig之前,Hadoop环境已经搭建完成,因此这里直接从安装Pig开始。1. 下载Pig安装包Pig-0.9.2下载地址:http://mirror.bjtu.edu.cn/apache/pig/pig-0.9.2/在以上地址选择pig-0.9.2.tar.gz文件,也就是linux系统的压缩文件,下载到路径:/home/hadoop/下载2.解压Pig安装包转载 2014-11-27 08:53:14 · 667 阅读 · 0 评论 -
Pig安装及简单实例
前面讲到了如何用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式。另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序转载 2014-11-27 08:56:27 · 564 阅读 · 0 评论 -
Hive整合HBase——通过Hive读/写 HBase中的表
写在前面一:本文将Hive与HBase整合在一起,使Hive可以读取HBase中的数据,让Hadoop生态系统中最为常用的两大框架互相结合,相得益彰。写在前面二:使用软件说明约定所有软件的存放目录:/home/yujianxin一、Hive整合HBase原理Hive与HBase整合的实现是利用两者本转载 2014-11-27 10:20:23 · 670 阅读 · 0 评论 -
用Mahout构建职位推荐引擎
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风转载 2014-11-27 10:29:26 · 784 阅读 · 0 评论 -
原创Hadoop基础题库
原本想出至少50题hadoop, HDFS, MapReduce, Zookeeper相关的基础题,现在暂时不进行了,把已经出的20多道题都奉上。暂时没有了出题的动力,可能觉得这东西出成题也没啥意义。总之权当巩固,各位权当消遣着瞧瞧。[java] view plaincopy//Hadoop基础 Doug Cutting所创立的转载 2014-11-28 13:34:38 · 1430 阅读 · 0 评论