
hadoop
xiewenbo
互联网广告行业呆过几年,旅游公司呆过几年,对机器学习,自然语言处理,图像识别,个性化推荐 有兴趣
展开
-
Mapreduce-Partition分析
Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce。2)效率,分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认的partitio转载 2012-05-21 19:17:59 · 2482 阅读 · 1 评论 -
Oozie简介
在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。本文中,我们会向你介绍Oozie以及使用它的一些方式。什么是Oozie?Oozie是一种Java Web应用程序,转载 2012-10-18 18:43:40 · 1208 阅读 · 0 评论 -
Hadoop源代码分析
http://caibinbupt.iteye.com/blog/262412Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster: http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.co转载 2012-10-20 21:06:17 · 461 阅读 · 0 评论 -
hadoop伪分布式的配置
这个也可以参考《hadoop权威指南》上面写的很全面,这里再说一遍: 我的机器配置环境: OS:Ubuntu10.10 ,hadoop版本:hadoop-0.20.2(下载网址: http://apache.etoak.com//hadoop/common/hadoop-0.20.2/ ) (1)安装jdk,请参考我之前的文章:http://w转载 2012-10-26 14:54:55 · 495 阅读 · 0 评论 -
MySQL推出Applier,可实时复制数据到Hadoop
MySQL复制操作可以将数据从一个MySQL服务器(主)复制到其他的一个或多个MySQL服务器(从)。试想一下,如果从服务器不再局限为一个MySQL服务器,而是其他任何数据库服务器或平台,并且复制事件要求实时进行,是否可以实现呢? MySQL团队最新推出的 MySQL Applier for Hadoop(以下简称Hadoop Applier)旨在解决这一问题。转载 2013-04-24 22:19:38 · 615 阅读 · 0 评论 -
hive数据导入
可以通过多种方式将数据导入hive表1.通过外部表导入用户在hive上建external表,建表的同时指定hdfs路径,在数据拷贝到指定hdfs路径的同时,也同时完成数据插入external表。例如:编辑文件test.txt$ cat test.txt 1 hello2 world3 test4 case转载 2013-05-02 21:10:03 · 517 阅读 · 0 评论 -
Hadoop动态添加删除datanode及tasktracker
首先建议datanode和tasktracker分开写独立的exclude文件,因为一个节点即可以同时是datanode和tasktracker,也可以单独是datanode或tasktracker。 1、删除datanode修改namenode上的hdfs-site.xml[plain] view plaincopy转载 2013-05-02 20:53:15 · 582 阅读 · 0 评论 -
Hadoop中文件读写(Java) <转>
前言在本文档中,你将了解到如何用Java接口读写Hadoop分布式系统中的文件,以及编码的转换等问题。其中有些细节,在你不知道的时候,是非常容易出错的。 这边读写文件分以下三种情况:1. 在非Map Reduce过程中读写分布式文件系统中的文件比如说,你想自己遍历一个文件,想截断一个文件,都属于这种方式。一般该过程发生在run函数中,程序员处理Map Reduce产生的中间文件上。转载 2013-05-02 20:44:57 · 704 阅读 · 0 评论 -
Hive Data Definition Language
这里主要列一些常用操作。 添加分区ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例ALTER TABLE table_name ADD IF NOT EXISTS PARTITION (dt='20130101') LOCATION '/user/hadoop/转载 2013-05-03 14:24:53 · 2717 阅读 · 0 评论 -
Hive性能调校
---提高Hive总体性能的若干技巧 刘宗全 2012-12-20本报告主要就如何提高Hive执行的总体性能进行了调研,下面以分条的形式列举出来。1. 设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的转载 2013-05-03 15:09:19 · 1328 阅读 · 0 评论 -
Hadoop Hive sql语法详解
1. DDL Operations创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表:hive>转载 2013-05-07 14:50:26 · 568 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Hadoop : MapReduce中的Shuffle和Sort分析转载自:http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece763104c90354501de2b3fdcda107cd6924a84642c1a0131a8ec302267558e9a61375ff21c41e9f7357731012ba3de95c81cd2facf6转载 2013-05-23 00:01:57 · 667 阅读 · 0 评论 -
Hbase配置手册
环境: 操作系统:ubuntu 12.10 64bit jdk:sun jdk 1.6 64bit hadoop:apache hadoop 1.02 hbase:apache hbase 0.92 先决条件:配置apache hadoop append,默认这个属性是false,需要设置为true1转载 2013-05-11 21:27:00 · 580 阅读 · 0 评论 -
Hive与HBase的整合
hive/lib下的hbase-handler ,zookeeper都使用Hbase/lib下的版本/hive --auxpath /opt/hive/lib/hive-hbase-handler-0.8.1.jar,/opt/hive/lib/hbase-0.90.4.jar,/opt/hive/lib/zookeeper-3.3.2.jar -hiveconf hbase.zookee转载 2013-05-07 13:31:11 · 1094 阅读 · 0 评论 -
java hive
junitjunit4.8.2test hadoop-core hadoop-core 0.20.203 -->org.apache.hadoophadoop-core0.20.203.0commons-httpclientcommons-httpclient3.1org.apache.httpcomponentshtt转载 2013-05-14 20:04:57 · 585 阅读 · 0 评论 -
java hbase
import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apach转载 2013-05-14 20:34:22 · 655 阅读 · 0 评论 -
Cassandra数据模型设计最佳实践(上部)
本文是Cassandra数据模型设计第一篇(全两篇),该系列文章包含了eBay使用Cassandra数据模型设计的一些实践。其中一些最佳实践我们是通过社区学到的,有些对我们来说也是新知识,还有一些仍然具有争议性,可能在要通过进一步的实践才能从中获益。本文中,我将会讲解一些基本的实践以及一个详细的例子。即使你不了解Cassandra,也应该能理解下面大多数内容。我们尝试使转载 2013-08-24 17:13:26 · 1408 阅读 · 0 评论 -
python和hive结合使用
主要工作:利用python脚本对日志文件解析,将解析后的每个字段存放到对应表中;(1)创建自己的数据库,存放所有自己建立的表: hive>create database lina; (2)进入数据库中,并创建两个表格分别是record,log: hive>create table record(da string); hive>load转载 2013-10-14 10:52:02 · 4794 阅读 · 0 评论 -
order by sort by distribute by cluster by
Order by[plain] view plaincopycolOrder: ( ASC | DESC ) orderBy: ORDER BY colName colOrder? (',' colName colOrder?)* query: SELECT expression (',' expression)* FROM sr翻译 2013-10-24 14:01:33 · 826 阅读 · 0 评论 -
获得当前split所在的文件名
utSplit=(InputSplit)context.getInputSplit();String filename=((FileSplit)inputSplit).getPath().getName();转载 2013-10-24 13:41:44 · 855 阅读 · 0 评论 -
大数据提速:Impala能否取代Hive
近日,Cloudera发布Impala实时查询引擎Impala 1.0 beta版,并声称这项革命性的技术能解决Hadoop批处理延迟问题(比原来基于MapReduce的Hive SQL查询速度提升3~30倍),开源的Impala还为Hadoop打开了通向关系型数据库和商业智能工具的大门。Impala是运行于现有Hadoop基础设施上的实时互动SQL查询引擎,可以让Hdadoop DF转载 2013-12-18 21:41:31 · 2121 阅读 · 0 评论 -
Mahout安装与配置
Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。hadoop@ubuntu:~$ tar -zxvf转载 2014-01-21 15:43:02 · 505 阅读 · 0 评论 -
LzoIndexer对TextFile格式文件的lzo压缩建立index索引
hadoop中可以对文件进行压缩,可以采用gzip、lzo、snappy等压缩算法。对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对sequenceFile和TextFile进行压缩,但是有一点,对TextFile压缩后,mapred对压缩后的文件默认是不能够进行split操作,需要对该lzo压缩文件进行index操作,生成lzo.index文件,map操作才可以进行s转载 2014-02-21 10:30:31 · 2204 阅读 · 0 评论 -
hadoop,hbase,hive安装全记录
操作系统:CentOS 5.5Hadoop:hadoop-0.20.203.0jdk1.7.0_01namenode主机名:master,namenode的IP:10.10.102.15datanode主机名:slave1,datanode的IP:10.10.106.8datanode主机名:slave2,datanode的IP:10.10.106.9一、hadoop 安装转载 2013-05-02 20:43:16 · 700 阅读 · 0 评论 -
Ubuntu安装配置Mysql
三种安装方式: 1. 从网上安装 sudo apt-get install mysql-server。装完已经自动配置好环境变量,可以直接使用mysql的命令。 注:建议将/etc/apt/source.list中的cn改成us,美国的服务器比中国的快很多。 2. 安装离线包,以mysql-5.0.45-linux-i686-icc-glibc23.tar.gz为转载 2014-02-23 14:59:20 · 498 阅读 · 0 评论 -
那些你看不见的 Facebook 创新
Facebook 十年,深刻地改变了互联网。像 Like(点赞)、Wall(留言墙)和 Timeline(时间线)这些只不过是用户可以见到的产品创新,都是我们每次登陆时候能够见到的。在这些产品的后面,在庞大的数据中心里面,还能找到各种各样其他类型的技术。它们都在用不同的方式改变着我们的世界。Facebook 在全球的用户数量已经超过 12 亿,Facebook 的工程师们要不断转载 2014-02-10 23:16:35 · 1222 阅读 · 0 评论 -
Sqoop安装及操作以及oozie&sqoop
一、集群环境: HostnameIPHadoop版本Hadoop功能系统node1 192.168.1.1510.20.0namenodehive+sqooprhel5.4X86node2 1转载 2014-02-24 16:00:22 · 1690 阅读 · 0 评论 -
oozie——mapreduce、mysql2hdfs、hdfs2hive
Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unl原创 2014-02-24 17:49:38 · 1018 阅读 · 2 评论 -
hadoop使用lzo压缩文件笔记 (cdh3u0)
编译LZO下载: http://www.oberhumer.com/opensource/lzo/download/ wgethttp://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 安装:tar -zxflzo-2.06.tar.gzcd lzo-2.06./configure --e转载 2014-02-25 16:19:13 · 997 阅读 · 0 评论 -
elephent-bird 安装
转载 http://guoyunsky.iteye.com/blog/1780165 elephant-bird使用还是比较简单,毕竟只是一个生成代码的工具.我一开始以为elephant-bird也跟Protcol Buffer或Thrift一样,有自己的脚本,传入参数和参数值,通过脚本去生成代码.后来才发现,根本无需如此. 毕竟elephant-bir转载 2014-02-27 14:46:31 · 846 阅读 · 0 评论 -
ProtocolBuffer和lzo技术Hadoop系统上的使用
转载:http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html概述基于hadoop的集群分布式数据处理目前是淘宝搜索中心最重要的数据处理平台,在集群物理条件确定的情况下,有几个方面影响了数据处理的速度。1、数据大小 (影响磁盘IO和网络IO)2、数据格式 (影响数据的解析及构造速度)3、并行度使用转载 2014-02-27 14:51:38 · 703 阅读 · 0 评论 -
Introduction to elephant-bird
转载: http://guoyunsky.iteye.com/blog/1780150国内基于elephant-bird的资料还太少,除了淘宝搜索技术博客上的一篇,网址:http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html,基本就没有了。但这篇也只是介绍如何使用. 其实对于elephant-bird的说明在其转载 2014-02-27 14:49:29 · 681 阅读 · 0 评论 -
Trie树
Trie树既可用于一般的字典搜索,也可用于索引查找。对于给定的一个字符串a1,a2,a3,...,an.则采用TRIE树搜索经过n次搜索即可完成一次查找。不过好像还是没有B树的搜索效率高,B树搜索算法复杂度为logt(n+1/2).当t趋向大,搜索效率变得高效。怪不得DB2的访问内存设置为虚拟内存的一个PAGE大小,而且帧切换频率降低,无需经常的PAGE切换。10.转载 2014-02-17 11:02:14 · 507 阅读 · 0 评论 -
Hadoop中的采样器
1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009/12/20/hadoop-tutorial-series-issue-2-getting-started-with-customized-partitioning/ 简单的来说就是解决"How to automatically find “good转载 2014-02-17 14:10:48 · 1207 阅读 · 0 评论 -
Mapreduce-Partition分析
http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce转载 2014-02-17 11:08:49 · 511 阅读 · 0 评论 -
Hadoop中的各种排序
1:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的按照key进行排序,即key值相同的一串存放在一起,这样一个partition内按照key值整体有序了。第二部分并不是排序,而是进行merge,merge有两次,一次是map端将多个spill 按照分区和分区内的key进行me转载 2014-02-17 14:16:05 · 692 阅读 · 0 评论 -
hadoop DistributeCatche使用代码片段
package org.apache.hadoop.examples;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org原创 2014-02-17 17:58:25 · 610 阅读 · 0 评论 -
MaxSecondSort 代码片段以及说明
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding原创 2014-02-18 13:41:21 · 704 阅读 · 0 评论 -
MapReduce高级编程——自定义InputFormat
http://irwenqiang.iteye.com/blog/14481640、测试集样例Java代码 ball, 3.5, 12.7, 9.0 car, 15, 23.76, 42.23 device, 0.0, 12.4, -67.1 1、测试Point3D InputFormatJava转载 2014-02-18 16:11:29 · 950 阅读 · 0 评论 -
Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
与MultipleOutputFormat类不一样的是,MultipleOutputs可以为不同的输出产生不同类型,到这里所说的MultipleOutputs类还是旧版本的功能,后面会提到新版本类库的强化版MultipleOutputs类,下面我们来用旧版本的MultipleOutputs类说明它是如何为不同的输出产生不同类型,MultipleOutputs类不是要求给每条记录请求文件名,而是创建转载 2014-02-18 17:37:20 · 807 阅读 · 0 评论