
云计算
文章平均质量分 82
iteye_2386
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用Sqoop把数据从HDFS导入到MYSQL
转自:http://www.kaifajie.cn/mySQL/6263.html sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java程序来实现sqoop把数据从HDFS写入到MYSQL。 在接触sqoop之前,我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想: 1、在MYSQL中创建一个参数表A,用来记...原创 2012-10-27 23:30:09 · 478 阅读 · 1 评论 -
Web日志分析方法概述 让复杂的数据挖掘变得简单可行
志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日志通常代表...原创 2012-04-13 16:31:37 · 207 阅读 · 0 评论 -
应用sqoop将MySQL数据库中的数据导入Hbase
转自:http://www.bwxxkj.com/a/jishuzhongxin/xingyeyingyong/2012/0327/88943.html 前提:安装好 sqoop、hbase。教材气的人,他们彼此建树友情,是很是轻易的;要他破损已有的友情,倒是一件难事。正如黄金的器皿一样,是不轻易破裂的;假如破损了,要修补它,使它恢答复复兴状,倒是最轻易的事。下载jbdc驱动:mysq...原创 2012-04-12 11:31:21 · 195 阅读 · 0 评论 -
hadoop中的trash机制,恢复删除的文件
Hadoop回收站trash,默认是关闭的。1.修改conf/core-site.xml,增加 Xml代码 <property> <name>fs.trash.interval</name> <value>1440</value> <description>Number of minutes between t...原创 2012-03-31 13:46:59 · 873 阅读 · 0 评论 -
Hadoop 和DBMS 的互补性
随着Microsoft 也加入Hadoop 阵营,Hadoop 已经完全变成了DBMS 的好朋友了 , 2年之前的SIGMOD组织提出的“A Comparison of Approaches to Large-Scale Data Analysis”引发了关于并行数据库和MapReduce模型的讨论, 双方唇枪舌剑之后发现两个系统根本就是各有所长, DBMS 目前有些处理好的领域和商业支持,Had...原创 2012-03-29 12:22:48 · 329 阅读 · 0 评论 -
Hadoop 中的两表join
转自:http://www.gemini5201314.net/hadoop/hadoop-%e4%b8%ad%e7%9a%84%e4%b8%a4%e8%a1%a8join.html 作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法...原创 2012-03-29 12:20:44 · 271 阅读 · 0 评论 -
各版本编译hadoop eclipse plugin
转自:http://www.gemini5201314.net/hadoop/%E5%90%84%E7%89%88%E6%9C%AC%E7%BC%96%E8%AF%91hadoop-eclipse-plugin.html最近一直在使用mapr版本的hadoop, 然后用的karmasphere 的eclipse plugin . 突然想找一个eclipse IDE 连接一下Cloudera 版...原创 2012-03-29 12:19:17 · 159 阅读 · 0 评论 -
hadoop常见错误
错误1:bin/hadoop dfs 不能正常启动,持续提示:INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s).原因:由于 dfs 的部分文件默认保存在tmp文件夹,在系统重启时被删除。解决:修改core-site.xml 的 hadoop.tmp.dir...原创 2012-03-24 13:04:14 · 161 阅读 · 0 评论 -
hbase运维
转自:http://blog.bluedavy.com/?p=251NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:)在运维hbase时,目前我们最为关注的主要是三大方面的状况:1. Cluster load;2. ...原创 2012-03-23 17:33:33 · 128 阅读 · 0 评论 -
使用Hive读取Hbase中的数据
转自:http://www.4ucode.com/Study/Topic/1925466 第一步,启动hadoop,命令:./start-all.sh第二步,启动hive,命令:./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0...原创 2012-04-18 14:24:54 · 203 阅读 · 0 评论 -
从hive将数据导出到mysql
转自:http://abloz.com/2012/07/20/export-data-to-mysql-from-the-hive.html http://abloz.com2012.7.20author:周海汉 在上一篇文章《》中,提到sqoop可以让RDBMS和HDFS之间互导数据,并且也支持从mysql中导入到HBase,但从HBase直接导入mysql则不是直接支持...原创 2012-07-31 16:31:08 · 589 阅读 · 0 评论 -
hadoop/mapred 优化方法
从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别.4. 改造hadoop一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.典型参数如复制因子,mapred.child.java.opts,mapred.tasktracker.map.tasks.maximum,m...原创 2012-06-12 11:47:59 · 219 阅读 · 0 评论 -
hadoop集群dfs.data.dir目录权限问题导致节点无法启动
安装使用Hive的时候发现文件无法从本地拷贝到hadoop集群系统,老是报错,错误内容为:java.io.IOException: File … could only be replicated to 0 nodes, instead of 1。查找namenode的日志,也是报这个错,而且非常多,即便在启动的时候也是报类似的错误。这个学习环境为单namenode+2个datano...原创 2012-06-11 18:32:39 · 871 阅读 · 0 评论 -
hadoop中的balancer
对于HDFS集群,经常长时间的运行,尤其是大量的delete操作后,集群中各个Datanode上的空间使用率可能会存在比较大的差异。所以需要一种机制使各个Datanode保持平衡,防止少数Datanode存储过多的文件。少数使用率过高的Datanode会导致对其的数据访问效率变低,并且如果该Datanode挂掉,需要更多的时间进行恢复,对集群也会造成更大的影响。Hadoop中已经提供了...原创 2012-06-11 15:49:23 · 265 阅读 · 0 评论 -
Hadoop集群上使用Lzo压缩
转自:http://www.tech126.com/hadoop-lzo/自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式关于Lzo压缩,twitter有一篇文章,介绍的比较详细,见这里:...原创 2012-05-28 11:03:20 · 148 阅读 · 0 评论 -
使用Hive读取Hbase中的数据
转自:http://www.4ucode.com/Study/Topic/1925466 第一步,启动hadoop,命令:./start-all.sh第二步,启动hive,命令:./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0....原创 2012-05-23 13:12:47 · 146 阅读 · 0 评论 -
在XP系统下配置eclipse集成hadoop开发
一、目的:由于hadoop只能在Linux环境下运行,所以对于在windwos系统下使用IDE工作的开发人员来说,调试是件麻烦的工作,所以我们今天要配置的Hadoop开发环境是在Windows XP系统下,并集成eclipse使开发人员在做hadoop开发时更容易调试。二、本人配置的版本信息:windows XP系统,jdk1.6.0_05,eclipse-jee-indigo-win32 Rel...原创 2012-05-05 11:09:17 · 157 阅读 · 0 评论 -
大数据的储存:百度HDFS集群的数据压缩
2012年4月13日,由IT168(ITPUB、IXPUB、ChinaUnix)主办的2012中国数据库技术大会(DTCC)在北京隆重召开。大会第三天,百度基础架构部高级工程师孙桂林发表了主题为“百度HDFS集群的数据压缩”的演讲。 当前,数字信息急剧膨胀。根据IDC的研究结果,2011年创造的信息数量达到1800EB,每年产生的数字信息量还在以60%的速度高速增长,到2020年,全球每年产...原创 2012-08-30 17:48:04 · 286 阅读 · 0 评论 -
用sqoop进行mysql和hdfs系统间的数据互导
转自:http://abloz.com/2012/07/19/data-between-the-mysql-and-hdfs-system-of-mutual-conductance-using-sqoop.html sqoop 是apache下用于RDBMS和HDFS互相导数据的工具。本文档是sqoop的使用实例,实现从mysql到hdfs互导数据,以及从Mysql导数据到HBa...原创 2012-07-31 16:32:18 · 286 阅读 · 0 评论 -
hadoop中mapreduce部分执行流程
转自:http://www.blogjava.net/shenh062326/archive/2011/01/14/342959.html 最近看了hadoop的mapreduce部分代码,看了之后总结了一下,算是成果吧。以下是程序执行的主要流程,其中参考了网上的一些文章。 概括Hadoop包括hdfs与mapreduce两部分,在试用期期间我主要看了mapreduce...原创 2011-11-30 17:56:18 · 289 阅读 · 0 评论 -
hadoop命令加载包的顺序
这几天在搞hadoop的一个基础包,过程中搞的很头大,明明用-libjars传了,在job提交前总是提示出错,新修改的函数执行出错。不过最后还是解决了,这要从hadoop本身加载包里函数的顺序说起。hadoop命令执行时,本地执行时(没有提交到jobtracker之前)要从CLASSPATH里加载jar包,并调用从CLASSPATH里jar包中的函数。在runjob之前,提交job的gatew...原创 2012-03-21 11:51:38 · 283 阅读 · 0 评论 -
Hadoop命令大全
转自:http://blog.youkuaiyun.com/wf1982/article/details/62155451、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -hi...原创 2012-03-21 10:34:37 · 177 阅读 · 0 评论 -
Hive优化总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时...原创 2012-07-09 15:18:41 · 162 阅读 · 0 评论 -
mahout使用
转自:http://hi.baidu.com/pakko/blog/item/3516fd6e34032bce80cb4afb.html运行kmeans的简单的例子:1:将样本数据集放到hdfs中指定文件下,应该在testdata文件夹下$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata例如:bin/hadoop fs...原创 2012-02-10 11:23:09 · 142 阅读 · 0 评论 -
Mahout详细安装过程
转自:http://hi.baidu.com/pakko/blog/item/e3d2228bd72a7a05c9fc7a71.html 1、jdk安装1.1、到官网下载相关的JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 1.2、打开“终端”输入:sh jdk-6u2...原创 2012-02-10 11:22:08 · 181 阅读 · 0 评论 -
数据密集型计算:MapReduce与Hadoop的真正竞争力
互联网络用户的剧增和宽带网络的普及,使得互联网络服务的本质是以海量数据处理为中心的服务。从搜索引擎、视频共享到电子商务,互联网络服务的成功与否在很大程度上依赖于所提供数据的规模和质量,数据处理的及时性、有效数据的比例等。Gordon Bell、Jim Gray和Alex Szalay在2006年1月的Computer杂志上发表的“Petascale computational sy...原创 2011-09-09 18:11:50 · 342 阅读 · 0 评论 -
Hive的基本原理与使用
本文转自:http://tiechou.info/?p=33简介Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。Hive可以将结构化的数据存储在数据仓库中,通过自己的SQL去查询分析需要的内容,这套SQL简称Hive SQL。它与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML 以及...原创 2011-08-19 11:51:53 · 214 阅读 · 0 评论 -
Lily架构简介
Lily是什么Lily是一个可扩展的数据仓库。用于数据的存储和搜索。Lily是一个分布式系统,她并不是白手起家的,她依赖于两个已有的OpenSource软件,一个是HBase, 另一个是SOLR. 同时Lily对于使用者提供自己的操作接口,称作Lily API.Lily的优势在于她强大的搜索能力,无论是文本匹配还是全文索引,通通都能搞定。但我觉得Lily在获取这些优势的同时付出...原创 2011-08-04 18:57:24 · 592 阅读 · 0 评论 -
HBase client API Guide
Version: 0.20.x 配置HBaseConfiguration是每一个hbase client都会使用到的对象,它代表的是HBase配置信息。它有两种构造方式: public HBaseConfiguration()public HBaseConfiguration(final Configuratio...原创 2011-07-19 16:27:26 · 174 阅读 · 0 评论 -
hbase 读写遍历
http://blog.youkuaiyun.com/feixiangcq/archive/2010/04/16/5495027.aspx 1.连接HBase中的表testtable,用户名:root,密码:rootpublic void ConnectHBaseTable() { Configuration conf = new Configuration(); ...原创 2011-07-18 16:44:12 · 316 阅读 · 0 评论 -
hadoop 命令手册
概述所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。用法:hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]Hadoop有一个选项解析框架用于解析一般的选项和运行类。命令选项描述--config confdir...原创 2012-02-21 13:30:56 · 108 阅读 · 0 评论 -
Hadoop Shell命令
转自:http://blog.sina.com.cn/s/blog_5fbdba500100cy6f.htmlFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对...原创 2012-02-21 13:32:07 · 122 阅读 · 0 评论 -
Hadoop集群性能优化技术研究
转自:http://www.qikan120.com/qydtInfo.asp?ArticleID=78558 摘要:Hadoop技术已经在互联网领域得到广泛的应用,同时也得到了学术界的普遍关注。该文介绍了Hadoop作为基础数据处理平台仍然存在的问题,阐明了Hadoop性能优化技术研究的必然性,并介绍了当前Hadoop优化的三个主要思路:从应用程序角度进行优化、对Hadoop系统参数进行...原创 2012-03-16 10:25:27 · 261 阅读 · 0 评论 -
hadoop jar xxxx.jar的流程
转自:http://hi.baidu.com/dtzw/blog/item/64a6f3f2dff0511eb17ec5b0.html搞清楚 hadoop jar xxxx.jar 执行的流程: jar文件是如何分发的JobClient(不一定是hadoop集群的节点)利用bin/hadoop脚本运行jar包,以hadoop-0.20.2-examples.jar为例子:hadoop jar ...原创 2012-03-12 17:06:17 · 153 阅读 · 0 评论 -
hive实战
本文转自:http://www.cnblogs.com/xuqiang/archive/2011/06/15/2081796.html 1. 安装hive2. hive实战3. hive存储模型4. 深入hql查询语言5. 参考资料及代码下载 <1>. 安装hive 下载hive,下载地址http://mirror.bjtu.edu.cn/a...原创 2012-03-12 16:51:20 · 438 阅读 · 0 评论 -
Thrift使用指南
1. 内容概要本文档比较全面的介绍了thrift(关于thrift框架的介绍,参考我这篇文章:Thrift框架介绍)语法,代码生成结构和应用经验。本文主要讲述的对象是thrift文件,并未涉及其client和server的编写方法(关于client和server的编写方法,可参考我这篇文章:使用Thrift RPC编写程序)。本文档大部分内容翻译自文章:...原创 2011-10-31 10:23:59 · 389 阅读 · 0 评论 -
Hadoop权限管理
1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自己...原创 2011-10-31 10:18:25 · 187 阅读 · 0 评论 -
Hadoop中两表JOIN的处理方法
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1...原创 2011-10-31 10:17:22 · 139 阅读 · 0 评论 -
Hadoop Streaming 编程
1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streamin...原创 2011-10-31 10:16:28 · 172 阅读 · 0 评论 -
Hive SQL
转自:http://www.tbdata.org/archives/581Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] TABLE [I...原创 2012-07-19 13:49:50 · 134 阅读 · 0 评论