
分布式、hadoop
文章平均质量分 66
-早起的码农
这个作者很懒,什么都没留下…
展开
-
几篇关于Hadoop+Hive数据仓库的入门文章
<br />Hadoop计算平台和Hadoop数据仓库的区别<br />http://datasearch.ruc.edu.cn/~boliangfeng/blog/?tag=%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93<br /><br />Hive 随谈(三)– Hive 和数据库的异同<br />http://www.tbdata.org/archives/551<br /><br />Hadoop Ecosystem解决方案---数据仓库<br />http://www.转载 2011-05-12 11:22:00 · 2567 阅读 · 0 评论 -
Mapreduce实例-TopK
public class TopK extends Configured implements Tool { public static class TopKMapper extends Mapper { public static final int K = 100; private TreeMap tm = new TreeMap();原创 2013-09-05 19:24:13 · 2697 阅读 · 0 评论 -
Mapreduce实例-sort全排序
public class SamplerInputFormat extends FileInputFormat { static final String PARTITION_FILENAME = "_partition.lst"; static final String SAMPLE_SIZE = "terasort.partitions.sample"; pr原创 2013-09-05 19:32:05 · 3653 阅读 · 1 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架转载 2013-10-26 18:45:36 · 2332 阅读 · 0 评论 -
MetaQ集群安装测试
1,下载https://github.com/killme2008/Metamorphosis/tree/metamorphosis-all-1.4.6.2,如果不想自己编译可以直接下载http://fnil.net/downloads/index.html,我这里选择自己编译,主要是以后如果出现问题自己可以修改其源码,重新编译2,maven编译,maven环境自己搜索配置好,下载all项目后需要原创 2014-02-26 12:43:20 · 3650 阅读 · 1 评论 -
hadoop和hive的实践应用(一)——hadoop分布式平台搭建
本文及以后的文章将介绍记录hadoop和hive在大日志分析中的应用,文章只介绍重点和容易搞错的细节,其他细节可以到官网或google查询。hadoop安装: 1,配置/etc/hosts中ip和nodename的对应关系 ssh无密码连接,ssh-keygen -t rsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 在master和salve上都生产authorized_keys合并成一个authorized_原创 2011-05-20 15:19:00 · 4437 阅读 · 0 评论 -
Hbase基于Mapreduce的编程
小试牛刀,将mapreduce的输出结果保存到大型分布式数据库中HBase中,一个例子,求各url的访问pv数据,由于用到rcfile格式需要导入hive-exce包,还需要加载hbase包,如果这两个包都已经被集群管理员放到各节点的hadoop/lib下那就可以省去这一步,废话不说,干货,看代码:package test.hbase;import java.io.IOException;原创 2012-08-26 20:50:33 · 3380 阅读 · 1 评论 -
Mapreduce中的RCFile输入RCFileInputFormat实现及其应用
基于旧的mapreduce的api的输入格式在hive中已有实现,在org.apache.hadoop.hive.ql.io下,下面代码是根据其源码自己实现的新mapreduce api接口。上代码:RCFileInputFormat.java import java.io.IOException;import org.apache.hadoop.hive.serde2.columnar.Byt原创 2012-08-26 20:11:00 · 5183 阅读 · 1 评论 -
hadoop和hive的实践应用(二)——基于Hadoop的数据仓库工具hive搭建
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 我这里主要用于统计处理结构化的文本数据,处理后,存入结构化数据库中展现给用户。 安装: 1,下载wget http://labs.renren.co原创 2011-05-24 11:36:00 · 7547 阅读 · 0 评论 -
基于Hive的数据仓库架构
用hadoop和hive有一段时间了,是我设计的基于hive的数据仓库架构,对于处理互联网日志比较合适原创 2011-08-28 22:08:14 · 5265 阅读 · 5 评论 -
史上最全“大数据”学习资源整理
当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。 为了帮助大家更好深入了解大数据,云转载 2016-10-21 15:00:58 · 5118 阅读 · 1 评论 -
Hive ORC数据格式的MapReduce Shuffle
1,mr代码如下package com.test.hadoop;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apach原创 2017-03-03 17:01:25 · 1533 阅读 · 0 评论 -
Mapreduce实例-分组排重(group by distinct)
实现一下几个类,代码太多,列了下主要代码,可根据排重数据的特征判读是否需要添加combiner来提速。 public class GroupComparator implements RawComparator { @Override public int compare(MyBinaryKey o1, MyBinaryKey o2) { return o1.toString(原创 2013-09-05 22:17:26 · 4613 阅读 · 0 评论 -
Mapreduce实例-JOIN
package com.sohu.tv.amstat.mr.test;import java.io.IOException;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.h原创 2017-07-28 13:55:17 · 655 阅读 · 0 评论 -
Hadoop集群机架感应配置
首先在core-site.xml中配置如下参数: topology.script.file.name /opt/hadoop/bin/rackawareness.py rackawareness.py脚本内容如下 #!/usr/bin/pythonimport sysfrom string import joinDEFAULT_RACK = '/default/rack0';R原创 2012-10-05 21:21:29 · 2730 阅读 · 0 评论 -
Mapreduce中的RCFile输出RCFileOutputFormat实现及其应用
自定义实现RCFileOutputFormat.java import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hado原创 2012-08-26 20:39:30 · 5508 阅读 · 3 评论 -
mapreduce程序reduce输出控制
1,在hadoop中,reduce支持多个输出,输出的文件名也是可控的,就是继承MultipleTextOutputFormat类,重写generateFileNameForKey方法public class LzoHandleLogMr extends Configured implements Tool { static class LzoHandleLogMapper extend原创 2012-02-25 22:01:38 · 5402 阅读 · 0 评论 -
基于MapReduce作业的MapReduce数据流优化
在编写MapReduce应用程序时,除了最基本的Map模块、Reduce模块和驱动方法之外,用户还可以通过一些技巧优化作业以提高其性能。对用户来说,合理地在MapReduce作业中对程序进行优化,可以极大地提高作业的性能,减少作业执行时间。我们从以下几个方法分析MapReduce作业的优化方法。1 选择Mapper的数量 Hadoop平台在处理大量小文件时性能比较逊色,主要由于生成的每个分片都是一整个文件,Map操作时只会处理很少的输入数据,但是会产生很多Map任务,每个Map任务的运行都包括转载 2011-06-02 13:37:00 · 2439 阅读 · 0 评论 -
日志分析方法概述
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志:211.87.152.44 – - [18/Mar/20转载 2011-04-30 18:37:00 · 1691 阅读 · 0 评论 -
“NoHadoop”?——新一代海量数据架构分析
在经历了长达25年的统治地位后,关系型数据库正面临越来越火的“NoSQL”挑战,而挑战者是以Hadoop为代表的分布式计算开源架构。可以看到,越来越多的消息表明,不管NoSQL是被解释为“No SQL”还是“Not Only SQL”,如果你面临海量数据的挑战,那么你最应该选的海转载 2011-09-01 22:56:13 · 1766 阅读 · 1 评论 -
hadoop命令笔记
查看文件内容(dfs 用fs替换可以)hadoop dfs -cat hdfs://nn1.example.com/file1 hdfs://nn2.example.com/file2hadoop dfs -cat file:///file3 /user/hado原创 2011-08-28 21:47:49 · 3624 阅读 · 1 评论 -
Hadoop集群参数配置原则
dfs.datanode.handler.countdatanode上用于处理RPC的线程数。默认为3,较大集群,可适当调大些,比如8。需要注意的是,每添加一个线程,需要的内存增加。tasktracker.http.threadsHTTP server上的线程数。运行原创 2011-08-28 21:54:37 · 3820 阅读 · 1 评论 -
使hadoop支持Splittable压缩lzo
在hadoop中使用lzo的压缩算法可以减小数据 的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。lzo本身不是splitable的,所以当数据为text格式时,用lzo压缩出来的数据当做job的输入是一个文件作为一个map。但是sequenc转载 2011-10-19 23:57:47 · 4515 阅读 · 4 评论 -
大数据排序或取重或去重相关问题
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取 ,然后根据所取得的值将url分别存储到1000个小文件(记为 )中。这样每个小文件的大约为3转载 2011-11-15 11:27:28 · 4311 阅读 · 1 评论 -
大数据技术大会参会小结
2011年11月26有幸受邀参加了csdn组织的TUP 大数据大会,小小的总结一下。 这次会议是在三元桥附近举行,参会人员很多,大会主要议题是大数据处理方面的技术,主要技术涉及hadoop,nosql等海量数据处理技术。上午涉及议题主要内容: HCE,批量计算mapreduce,MPI Redis应用 R语言原创 2011-11-30 21:57:06 · 3192 阅读 · 4 评论 -
Hadoop分布式环境下的数据抽样
1. 问题由来Google曾经有一道非常经典的面试题:给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?这道题的解法非常多,网上讨论也非常热烈。本文要讨论的是,这个问题是从何而来,有什么实用价值?自从有了Hadoop之后,该问题便有了转载 2011-11-13 11:18:19 · 2256 阅读 · 0 评论 -
Hadoop in China2011参会总结
参加Hadoop in China2011已经是两周前的事了,由于最近比较忙也没有对参会的内容进行总结。大会分两天进行,上午基本上是大礼堂主题演讲,下午是各个技术方向的讲座。通过讲座对hadoop生态系统有了一个全面的了解:Hive :hive是一个基于Hadoop文件系统上的数据仓库架构。它为数据仓库管理提供了数据ETL(抽取,转化和加载)工具,数据存储管理和大型数据集的查询原创 2011-12-16 23:12:54 · 2490 阅读 · 1 评论 -
hadoop集群lzo的安装
主要步骤:1,安装和更新gcc、ant(系统已经安装的话,略去下面步骤)yum -y install gcc gcc-c++ autoconf automakewget http://labs.renren.com/apache-mirror//ant/binaries/apache-ant-1.8.2-bin.tar.gztar -jxvf apache-ant-1.8.2-原创 2012-01-05 23:01:01 · 3438 阅读 · 1 评论 -
MapReduce 编程模型在日志分析方面的应用
MapReduce 编程模型简介随着信息化的进一步加深,在各个领域,如电信、交通、金融、零售、航天、医药等,数据量级都呈现快速增长趋势。如何高效并且无误地存储、分析、理解以及利用这些大规模数据,成为一个关键性问题。为了应对大规模数据处理的难题,MapReduce 编程模型应运而生。Google 提出的这一模型,由于良好的易用性和可扩展性,得到了工业界和学术界的广泛支持。Hadoop,Map转载 2012-01-10 14:31:08 · 1876 阅读 · 0 评论 -
Facebook数据仓库揭秘:RCFile高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数转载 2012-02-22 22:52:02 · 1982 阅读 · 0 评论 -
HIVE全部函数详解
函数名 含义及实例 abs abs(x) - returns the absolute value of x Example: > SELECT abs(0) FROM src LIMIT 1; 0 > SELECT abs(-5) FROM src LIMIT 1; 5 acos acos(x) - returns the原创 2017-09-13 18:04:28 · 17440 阅读 · 1 评论