
hadoop
文章平均质量分 83
goingandgoing
世界那么大,总会找到自己的一片天
展开
-
hadoop常用算法简单实例
实例一、对以下数据进行排序,根据收入减去支出得到最后结余从大到小排序,数据如下: SumStep运行之后结果如下: SortStep运行之后结果为上图根据结余从大到小排序。 代码如下: public class InfoBean implements WritableComparable{ private String account; private dou原创 2016-01-18 19:26:49 · 5024 阅读 · 1 评论 -
spark从mongodb导入数据到hive
1、首先添加mongo-spark依赖,官网地址 https://docs.mongodb.com/spark-connector/ org.mongodb.spark mongo-spark-connector_2.10 1.1.0 2、直接上代码 object Mongo2Hive {原创 2016-11-15 13:38:37 · 3953 阅读 · 0 评论 -
hadoop常用算法在spark中实现
object MRInSpark { /** * 求最大值最小值一直是Hadoop的经典案例,我们用Spark来实现一下, * 借此感受一下spark中mr的思想和实现方式 */ def maxMin = { val sconf = new SparkConf().setAppName("avgTest").setMaster("local[2]")原创 2017-02-16 16:35:30 · 1222 阅读 · 0 评论 -
hive sql 优化
1、COUNT(DISTINCT)优化 原始语句运行时间大概215秒select dt, count(distinct case when page='2001' then uuid end) as cleanUser from dw_space_page_orc_dt where dt>='20170506' GROUP BY dt优化之后语句运行时间大概155秒 select sum(原创 2017-05-10 10:28:47 · 378 阅读 · 0 评论