
cloudera
文章平均质量分 64
豹先生_MR-BAO
做中国云计算导航人~~~~~
展开
-
mahout in action 2.2 运行首个推荐引擎
Mahout包含一个推荐引擎的几种类型,事实上包含传统的基于用户(user-based),基于项目(item-based)推荐算法,也包括基于“slope-one”技术的实现(这一个新的有效的方法)。你将根据实验,基于单机版的(SVD)初步实现。在下面的章节里,我们将会在Mahout的背景下和一些现实生活中的例子,来回顾上面的观察结果。我们将会考虑如何代表数据,如何进行有效的推荐算法,如何评估转载 2013-02-23 14:26:50 · 660 阅读 · 0 评论 -
win7下myeclipse部署nutch1.2报Expecting a line not the end of stream异常解决
在win7通过myeclipse部署nutch1.2源码,报如下异常:2011-10-28 00:09:37,784 WARN mapred.LocalJobRunner (LocalJobRunner.java:run(256)) - job_local_0001java.io.IOException: Expecting a line not the end of streama原创 2011-10-28 00:24:35 · 2158 阅读 · 0 评论 -
云平台调整建议
一,建立最少的列簇1,用户表将用户基本信息放入一个列簇中(如nickname,gender等),将好友,标签等有大量列的单独存放,这样用户表成为5个列簇2,信息表、用户关系等基本表都改为一个列簇调整依据:更少的列簇,更少的io分析:一个HRegion中所有HStore中MemStore的大小总和到达阀值时就会进行flush操作(解释:可大概理解为同一个表中的所有列簇会同时flu原创 2011-10-25 23:02:36 · 977 阅读 · 0 评论 -
Windows下myeclipse 安装 Nutch1.2(终于找到个不报错的)
1.下载并安装cygwin,安装和环境配置不细说了。将%CYGWIN_HOME%\bin加到path中。 2.导入到Eclipse中 ①在Eclipse中添加File > New > Project > Java project。 project name随便,选择 “Create project from existing source” ,在browse中选nutch的解压转载 2011-10-23 22:40:37 · 1436 阅读 · 0 评论 -
win7下cygwin部署nutch1.2报Expecting a line not the end of stream异常
java.io.IOException: Expecting a line not the end of streamat org.apache.hadoop.fs.DF.parseExecResult(DF.java:109)at org.apache.hadoop.util.Shell.runCommand(Shell.java:179)at org.apache.hadoop.u原创 2011-10-24 22:07:47 · 1483 阅读 · 1 评论 -
多region下的hbase写入问题
最近在集群上发现hbase写入性能受到较大下降,测试环境下没有该问题产生。而生产环境和测试环境的区别之一是生产环境的region数量远远多于测试环境,单台regionserver服务了约3500个region。 通过jstack工具检查到大半写入线程BLOCKED状态在"public synchronized void reclaimMemStoreMemory() {"这一行,这是在转载 2011-10-24 17:29:18 · 1020 阅读 · 0 评论 -
win7下在cygwin下安装nutch1.2
将nutch解压缩(.gz后缀,可以直接用winRar解压)后将文件夹nutch-1.2(包含文件夹下所有文件)放置到c:/cygwin/home下(我放在c:/cygwin/home下);打开cygwin,在cygwin环境下进入nutch-1.2目录下(cd /cygdrive/c/cygwin/home/nutch-1.2),使用命令 bin/nutch进行测试,正常的情况下出现的结果是:原创 2011-10-24 22:04:38 · 1174 阅读 · 0 评论 -
hbase中compact、split相应配置参数分析
1, hbase.hregion.majorcompaction 86400000 The time (in miliseconds) between 'major' compactions of all HStoreFiles in a region. Default: 1 day. Set to 0 to disable automated major co原创 2011-10-21 17:53:00 · 6015 阅读 · 1 评论 -
hbase系统架构及数据结构
HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase转载 2011-10-21 17:37:14 · 4548 阅读 · 2 评论 -
linux安装使用jprofiler6分析服务器应用状态(序列号)
jprofiler7有用序列号L-Larry_Lau@163.com#16320-dvzxpt17ogmau#013L-Larry_Lau@163.com#83851-1vyctfjv8d6ua#255L-Larry_Lau@163.com#83192-56yozpwn6v3n#1741、当应用出现问题时可以用jprofiler进行分析cpu、内存、线程转载 2011-10-20 16:07:22 · 1683 阅读 · 0 评论 -
hbase中compaction流程
当 client 向 hregion 端 put() 数据时, HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值,如果大于,则执行 flushcache() 操作,将 hregion 上的 m转载 2011-10-19 12:28:58 · 2278 阅读 · 0 评论 -
cloudera中hbase使用Snappy算法安装及设置
Snappy is a compression/decompression library. It aims for very high speeds and reasonable compression, rather than maximum compression or c转载 2011-10-18 16:34:45 · 3608 阅读 · 2 评论 -
hive优化总结
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.转载 2011-10-09 18:05:06 · 842 阅读 · 0 评论 -
hbase开启lzo压缩
hbase只支持对gzip的压缩,对lzo压缩支持不好。在io成为系统瓶颈的情况下,一般开启lzo压缩会提高系统的吞吐量。但这需要参考具体的应用场景,即是否值得进行压缩、压缩率是否足够等等。 想要hbase支持lzo压缩,参照以下步骤: 1 首先要让系统支持lzo动态转载 2011-10-18 15:21:23 · 1837 阅读 · 0 评论 -
HBase 压缩算法设置及修改
Compression就是在用CPU换IO吞吐量/磁盘空间,如果没有什么特殊原因推荐针对Column Family设置compression,下面主要有三种算法: GZIP, LZO, Snappy,作者推荐使用Snappy,因为它有较好的Encoding/Decoding速度和转载 2011-10-18 16:33:33 · 2063 阅读 · 0 评论 -
nutch1.3数据流程图
流程入口org.apache.nutch.crawl crawl.java Crawl::run 里面的很多类中都使用了mapreduce框架进行数据处理ulrs:存放在hdfs中的待爬取的urls种子列表Injector:使用mapreduce任务将urls转载 2011-10-10 14:09:54 · 1054 阅读 · 0 评论 -
Sqoop User Guide (v1.3.0-cdh3u2)(sqoop用户手册)1
1. IntroductionSqoop is a tool designed to transfer data between Hadoop and relational databases. You can use Sqoop to import data from a relational database management system (RDBMS) such as翻译 2011-11-18 14:06:38 · 203 阅读 · 0 评论 -
Sqoop User Guide (v1.3.0-cdh3u2)(sqoop用户手册)1
1. IntroductionSqoop is a tool designed to transfer data between Hadoop and relational databases. You can use Sqoop to import data from a relational database management system (RDBMS) such a翻译 2011-11-18 14:36:53 · 2241 阅读 · 0 评论 -
Hadoop集群性能优化技术研究
摘要:Hadoop技术已经在互联网领域得到广泛的应用,同时也得到了学术界的普遍关注。该文介绍了Hadoop作为基础数据处理平台仍然存在的问题,阐明了Hadoop性能优化技术研究的必然性,并介绍了当前Hadoop优化的三个主要思路:从应用程序角度进行优化、对Hadoop系统参数进行优化和对Hadoop作业调度算法进行优化。Hadoop集群优化对于提高系统性能和执行效率具有重大的意义。 [如转载 2013-02-23 14:15:22 · 1123 阅读 · 0 评论 -
Apache Mahout 简介
简介: 当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧(比如说集群、协作筛选和分类)的需求前所未有地增长,无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示转载 2013-02-23 14:13:54 · 908 阅读 · 0 评论 -
hive 三种启动方式及用途,关注通过jdbc连接的启动
1, hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive –service cli 用于linux平台命令行查询,查询语句基本跟mysql查询语句类似 2, hive web界面的启动方式,hive –service hwi 用于通过浏览器来访问hive,感觉没多大用途3, hive 远程服务 (原创 2011-08-31 09:59:06 · 8782 阅读 · 0 评论 -
HBase on Windows(windows下使用cygwin安装hbase问题记录)
步骤:1,HBaseDownload the latest release of HBase from the website. As the HBase distributable is just a zipped archive, installation is as simple as unpacking the archive so it ends up in it原创 2012-02-03 15:29:51 · 2237 阅读 · 0 评论 -
mapreduce中Cannot load JDBC driver class 'net.sourceforge.jtds.jdbc.Driver' 异常分析
因为mapreduce牵扯到了用spring,hibernate开源框架,引入之后报如下错误(在普通web工程中是没问题的):org.apache.commons.dbcp.SQLNestedException: Cannot load JDBC driver class 'net.sourceforge.jtds.jdbc.Driver' at org.apache.com原创 2012-02-29 15:05:37 · 2834 阅读 · 1 评论 -
解决hadoop mapreduce 包依赖问题
使用hadoop时,我们有时会自写一些mapreduce的应用,我们可能会用到一些第三方的包。如果不做任何处理,在job执行的就会报ClassNotFound的Exception.有四种处理方法:1. 把要依赖的包部署到每台task tracker上面这个方法最简单,但是要部署到每台task tracker,而且可能引起包污染的问题。比如应用A和应用B都用到同一个libray,原创 2012-02-28 14:31:20 · 1854 阅读 · 0 评论 -
mapreduce ENOENT: No such file or directory异常
Error initializing attempt_201202221208_0010_m_000018_0:ENOENT: No such file or directory at org.apache.hadoop.io.nativeio.NativeIO.chmod(Native Method) at org.apache.hadoop.fs.RawLocalFileSystem.s原创 2012-02-27 14:31:15 · 5305 阅读 · 1 评论 -
Sqoop User Guide (v1.3.0-cdh3u2)(sqoop用户手册)2
6. Sqoop Tools6.1. Using Command Aliases6.2. Controlling the Hadoop Installation6.3. Using Generic and Specific Arguments6.4. Using Options Files to Pass Arguments6.5. Using Tools6.1。使用命原创 2012-01-29 17:32:17 · 2044 阅读 · 0 评论 -
修复hbase region hole(region空洞,两个region rowkey不连续)问题流程
修复hbase region hole问题流程1,查询资料用hbase org.jruby.Main check_meta.rb --fix和 hbase hbck -fix会造成数据丢失,考虑其他办法, 首先考虑用major_compact对该表进行更新看是否会检测到问题并修复,major_compact完成之后未成功 2,重新起动hbase集群,是否会进行闭环检测?未成原创 2011-12-19 18:51:05 · 8541 阅读 · 1 评论 -
HBase 架构101 –预写日志系统 (WAL)
HBase 架构101 –预写日志系统 (WAL)原文:http://www.larsgeorge.com/2010/01/hbase-architecture-101-write-ahead-log.html什么是预写日志WAL? 之前的文章我们简单介绍了HBase的存储结构。其中提到了预写日志。这里,我们要介绍它的实现细节,所有的描述都基于HBase 0.20.3.WAL最重转载 2011-11-09 18:11:26 · 1792 阅读 · 0 评论 -
使用Ganglia监控Hadoop
Hadoop本身提供了很多监控工具的接口,如JMX、Nagios、Ganglia等。使用Ganglia监控hadoop,配置起来非常简单,只需要修改$HADOOP_HOME/conf/hadoop-metrics.properties文件,把相关的配置段修改为下面的示例:# Configuration of the "dfs" context for ganglia # Pick one: G转载 2011-11-08 11:56:41 · 2161 阅读 · 0 评论 -
用 Ganglia 监控hadoop集群
随着数据中心的增长和管理人员的缩减,对计算资源使用有效监视工具的需求变得比以往更加迫切。术语监视 在应用到数据中心时可能会让人混淆,因为它的含义会根据具体的说话者和听众而有所不同。例如:在集群中运行应用程序的人员会思考:“我的作业什么时候运行?它什么时候会完成?以及与上一次相比,它是怎样执行的?”网络运营中心(NOC)的操作员会思考:“什么时候会出现表示需要解决问题的红灯并安排服务转载 2011-11-08 11:55:53 · 4595 阅读 · 0 评论 -
淘宝海量数据技术架构解析(做为hadoop集群技术架构参考)
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研转载 2011-11-25 17:48:48 · 2405 阅读 · 0 评论 -
hbase很有价值的读写性能提升
NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:)在运维hbase时,目前我们最为关注的主要是三大方面的状况:1. Cluster load;2. 读写;3. 磁盘空间。1. Cluster lo转载 2011-11-01 16:09:44 · 2456 阅读 · 0 评论 -
win7下myeclipse部署nutch1.3报Expecting a line not the end of stream异常解决
解决方案同上一篇文章中的nutch1.2异常解决方案相同,跟nutch本身是一点关系都没有原创 2011-10-31 21:45:11 · 177 阅读 · 0 评论 -
nutch1.3+hadoop0.20.2+solr3.2搭建
一 简介1 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. Nutch必须能够做到: * 每个月取几十亿网转载 2011-10-10 14:09:06 · 974 阅读 · 0 评论 -
HBase性能深度分析
文/刘星HBase作为BigTable的一个开源实现,随着其应用的普及,用户对它的性能数据愈发关注。本文将为您揭开HBase性能测试的一角,邀您一起参与到对云计算模块性能调优的深度思考中。对于BigTable类型的分布式数据库应用来说,用户往往会对其性能状况有转载 2011-10-14 18:01:24 · 1223 阅读 · 0 评论 -
hive数据分析实战及执行效率执行策略分析
1,首先在hadoop集群中启动jobtrakker2,hive以提供远程服务模式启动nohup hive –service hiveserver & 3,用户关系表user_relation字段 uid1, uid2样例数据 1原创 2011-10-14 12:27:11 · 1864 阅读 · 0 评论 -
HBase入门篇1-为什么hbase,hbase特性、优点,hbase基础
HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,转载 2011-09-15 11:06:49 · 4893 阅读 · 0 评论 -
HBase入门篇3-hbase 配置文件参数设置及优化
前两篇文件分别说到了我在学习HBase中的一些入门经验,而《HBase 入门3》这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为我学习笔记的一部分,因为学多了怕忘,留给自己以后看看。1 修改 linux 系统参数 Linux系统最大可打开文件转载 2011-09-15 11:05:18 · 5295 阅读 · 1 评论 -
HBase入门5(集群) -压力分载与失效转发
在上一篇关于HBase的文章中曾经讲述过HBase在分布式中的架构,这篇文章将会讲述HBase在分布式环境中是如何排除单点故障的(SPFO),做一个小实验讲述HBase在分布式环境中的高可用性,亲眼看到一些现象,延伸一些思考的话题。先来回顾一下HBase主要部件:转载 2011-09-15 11:03:46 · 880 阅读 · 0 评论 -
Hbase入门6 -白话MySQL(RDBMS)与HBase之间
我的废话1: 任何一项新技术并非救命稻草,一抹一擦立马药到病除的百宝箱,并非使用Spring或者NOSQL的产品就神乎其神+五光十色,如果那样基本是扯淡。同类 型产品中不管那种技术最终要达到的目的是一样的,通过新的技术手段你往往可能避讳了当前你所需要面对的问题,但过后新的转载 2011-09-15 11:02:59 · 1100 阅读 · 0 评论