
hadoop+pig
文章平均质量分 71
dalaoadalaoa
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Pig的一些基础概念及用法总结
转载出处:http://www.codelast.com/ 本文可以让刚接触pig的人对一些基础概念有个初步的了解。 本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详尽的说明及注解转载 2015-03-26 22:31:18 · 2025 阅读 · 0 评论 -
Hadoop集群上基于Pig的通话记录的查询及错误排解(ERROR 2998: Unhandled internal error. name)
问题说明:由于电信公司一般把通话记录CDR存放在传统的关系数据库中,需要统计或者查询时,只需要简单的几条sql语句即可查找出来;但是随着数据量的不断增大,特别数据量达到海量级别时,如果还是从传统数据库来进行查找的话,将是非常费时的;由于查询可以分解为过滤,聚合,统计等步骤,用分布式(mapreduce)的方式来处理是十分适合的。因为操作对每一条记录都是独立的,因此可以将表中所有数据存放在hdfs的一个文件cdr.txt中,由于cdr.txt在HDFS中是存放在多台计算机中,之间没有相关性,因此可以将计算分布原创 2015-03-25 20:39:02 · 1518 阅读 · 0 评论