
大数据分析
文章平均质量分 67
xuefei2
这个作者很懒,什么都没留下…
展开
-
利用EXCEL+ACCESS分析大数据量文件
今晚加班统计汇总70多万行EXCEL数据,对每行数据进行15次VLOOKUP查找后,EXCEL毫无悬念地失去响应,CPU立刻达到100%。和老婆看了1个多小时元宵晚会后回来一看,结果依然没有算出来。突然想起之前看过一本书《让EXCEL飞》,提到海量数据用EXCEL+ACCESS进行分析。尝试一下,10分钟完成全部查询,其中大部分时间还是花在EXCEL文件处理上。这里对操作步骤简单记录: 1原创 2014-02-15 01:09:10 · 7312 阅读 · 0 评论 -
HDPCD:Java认证考试经验总结
因公司使用Hortonworks的Hadoop产品,最近我参加了HDPCP:Java(Hortonworks Certified Java Developer)资格认证考试。自去年11月参加HDP培训开始,至7月16日晚参加在线认证考试,共经历了半年多时间。在这段时间里,搭建本地伪分布式Hadoop环境,每天看书复习,学习网上资料,写code练手,从零开始学习直至参加考试获得认证,过程艰苦并快乐。这里记录下来,供后续参加认证的同学参考借鉴。原创 2016-07-22 11:56:11 · 1775 阅读 · 1 评论 -
(hadoop学习-3)Total Order Partitioner
总结mapreduce的TotalOrderPartition方法,提供具体流程和关键代码实现。翻译 2016-06-15 09:32:12 · 1459 阅读 · 0 评论 -
Hadoop开发相关问题总结
总结自己在Hadoop开发中遇到的问题,主要在mapreduce代码执行方面。大部分来自日常代码执行错误的解决方法,还有一些是对JAVA、Hadoop剖析。对于问题,通过查询stackoverflow、csdn找到了解决方法。汇总出来以后查询方便。内容将不定期更新。原创 2016-06-14 15:23:26 · 4115 阅读 · 0 评论 -
(hadoop学习-5)Map Side Join
简述mapreduce的map side join过程翻译 2016-07-11 14:27:43 · 578 阅读 · 0 评论 -
(hadoop学习-4)Reduce side join
利用mapreduce实现两个表reduce side join操作,比提供rawcomparator进行优化翻译 2016-06-29 14:21:19 · 461 阅读 · 0 评论 -
(hadoop学习-1)mapreduce实现数据过滤、聚合与排序
利用mapreduce实现数据过滤、聚合与排序。文章翻译自http://blog.ditullio.fr,并提供源代码。翻译 2016-06-13 10:29:09 · 3940 阅读 · 0 评论 -
(Hadoop学习-2)mapreduce实现二次排序
mapreduce实现二次排序翻译 2016-06-13 10:37:31 · 672 阅读 · 0 评论 -
TFIDF算法Hadoop实现
利用HADOOP实现TFIDF算法原创 2016-06-12 09:13:50 · 2281 阅读 · 1 评论 -
伪分布式hadoop搭建步骤
1.从hadoop官方网站(hadoop.apache.org)下载hadoop安装包。解压缩后放到本地,非中文路径下。2.修改hadoop目录etc/hadoop文件夹内相关配置文件。如果配置文件没有该属性,需要增加。1)配置core-site.xml文件的defaultFS、hadoop.tmp.dir fs.defaultFS hdfs://localho原创 2016-04-23 09:48:49 · 379 阅读 · 0 评论 -
二次排序说明
hadoop二次排序,把部分value移至key,组成新class,作为mapreduce框架的新key进行计算。下面根据hadoop2.7.1源代码中样例程序secondarysort.java,总结二次排序相关方法。package org.apache.hadoop.examples;import java.io.DataInput;import java.io.DataOutput原创 2016-04-23 09:47:39 · 500 阅读 · 0 评论 -
关于hadoop wordcount的几种实现
Wordcount是hadoop的入门程序,类似其他程序语言的hello world程序一般。这个程序简短,但是不简单。通过多种方式实现,加强对mapreduce理解,大有好处。下面是最近我学习hadoop总结,利用wordcount把Secondary sort、In Map aggregation、Task wordflow串起来,供以后查阅。实现方法1:常规方式计原创 2016-03-07 20:51:44 · 635 阅读 · 0 评论 -
(大数据分析-1)HDFS Review
1 HDFS基本原理及介绍1.1 基本原理HDFS仅负责存储数据,mapReduce负责读写数据设计目标:大文件存储(TB、PB)、高容错(软件容错,数据多份拷贝)、高吞吐不适合场景:存储大量小文件、随机读取、低延迟读取1.1.1 HDFS基本概念数据块(block)大文件会被分割为多个block(默认128M存储,小于一个块的文件不会占原创 2015-09-16 10:38:31 · 722 阅读 · 0 评论 -
(大数据分析-2)mapReduce Review
1 mapReduce基本原理及介绍HDFS提供分布式存储,mapReduce提供并行计算框架。mapReduce主要特点:提供并行计算能力,随着节点增加近似线性递增分而治之思想编程结构透明1.1 基本原理1.1.1 job和taskjob是客户端要求执行的一个工作单元,输入数据、mapReduce程序、配置task是mapreduce作业拆分的原创 2015-09-16 10:41:06 · 458 阅读 · 0 评论 -
(大数据分析-3)HBASE Review
hbase原理回顾原创 2015-09-16 10:43:33 · 589 阅读 · 0 评论 -
Spark API样例
利用样例,说明Spark API功能。转载 2016-11-22 08:57:53 · 586 阅读 · 0 评论