
MoreHadoop_hadoop海量数据处理实战系列
代码请关注: https://github.com/titer1/Play_HadoopFelix
这是hadoop海量数据处理书的实践工程,本工程基于2017.05.17工程进行实战。
实践问题可与titer2008@gmail.com联系,周末统一回复。
titer1
一个爱弄墨水的程序员
www.drysaltery.com
展开
-
实战hadoop海量数据处理系列05 : 实现点击流日志的数据清洗模块
实战hadoop海量数据处理系列05 : 实现点击流日志的数据清洗模块之前已经实现结构化数据的清洗,下一步我们将实现半结构化(非结构化)数据的清洗。在阅读本文前,强烈建议阅读原书“实现点击流日志的数据清洗模块”章节。本文的代码同步于github,相关地址如下:[github地址](https://github.com/titer1/Play_HadoopFelix)原创 2017-06-10 21:02:50 · 5372 阅读 · 2 评论 -
实战hadoop海量数据处理系列04预热篇:窗函数row_number 从理论到实践
实战hadoop海量数据处理系列04预热篇:窗函数row_number 从理论到实践作者写第一版书的时候,,hive还没有官方支持row_number,需要使用UDF来实现额外的jar; 不过幸运的是,从hive 0.11过后,官方就加入这个函数,所以入门更容易啦。1 row_number定义结合情景分析row_number()over (partition by tran_idorder by原创 2017-06-09 12:28:08 · 1205 阅读 · 0 评论 -
实战hadoop海量数据处理系列 01:数据导入篇
实战hadoop海量数据处理系列 01:数据导入篇本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。在阅读本文前,强烈建议阅读原书“实现数据导入导出模块”章节。原创 2017-06-07 08:59:08 · 4120 阅读 · 0 评论 -
实战hadoop海量数据处理系列02: hql执行工具
实战hadoop海量数据处理系列02: hql执行工具本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。在阅读本文前,强烈建议阅读原书“实现数据分析工具模块”章节。本文的代码同步于https://github.com/titer1/Play_HadoopFelix1 原理图 对比数据导入章节的结构图,你会发现本章原理类似,先解析xml,然后触发命令。原创 2017-06-07 10:58:04 · 1463 阅读 · 0 评论 -
实战hadoop海量数据处理系列03 :数据仓库的设计
#实战hadoop海量数据处理系列03 :数据仓库的设计鉴于我们之前两章提前预热的开发环境,我们现在来讨论数据仓库的设计,其实本章应该放到一个正式的项目的前端,不过好事总会要来的,准备好数据仓库,我们就可以实地验证sqoop等程序的逻辑。Let's go!本文的代码同步于https://github.com/titer1/Play_HadoopFelix原创 2017-06-07 12:09:21 · 5028 阅读 · 7 评论 -
实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录
实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。https://github.com/titer1/Play_HadoopFelix原创 2017-06-09 09:58:46 · 1867 阅读 · 0 评论 -
实战hadoop海量数据处理系列:序
#实战hadoop海量数据处理系列:序 先讲述我我和范老师书的缘分,第二是对代码的思考,第三是自己的进度,第四是对进度进行展望。原创 2017-06-07 07:36:16 · 1777 阅读 · 2 评论