
PIG
文章平均质量分 79
zkeqing
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PIG中的null问题
在比较操作(==,!=,>,=,<=),matches,算数操作(+,-,*,/ ,包含%,?,CASE)中,如果有一个操作数为空,那么结果为空。 COUNT_STAR ,不过滤null数据 CAST 操作:将一个null数据从一个数据类型转换到另一个数据类型,结果为空 AVG,MIN,MAX,SUM,COUNT :这几个操作将忽略空值 CONCAT :任意原创 2014-06-27 17:20:20 · 1282 阅读 · 0 评论 -
pig 的udf中不能import json 问题
解决方案: 1. 下载jyson的jar包 http://opensource.xhaus.com/projects/jyson/files 2. 在python的udf中按如下方式使用即可: import sys sys.path.append('xxxxx/jyson-1.0.1.jar') import com.xhaus.jyson.JysonCodec原创 2017-09-07 14:23:50 · 448 阅读 · 0 评论 -
pig中应用DistributedCache机制缓存多文件的尝试
最近在优化的项目因udf中引用的数据较大,需要应用hadoop的DistributedCache机制。在应用过程中遇到一些问题,push给大家,希望对大家有所帮助。 什么是DistributedCache? DistributedCache是hadoop框架提供的一种机制,可以将job指定的文件,在job执行前,先行分发到task执行的机器上,并有相关机制对cache文件进行管理. 常见的应原创 2017-12-27 11:40:52 · 616 阅读 · 0 评论