Apache Pig 扩展与 Twitter 数据深度分析
1. 扩展 Pig(UDFs)
在 Pig 中,函数几乎可以成为每个操作符的一部分。用户定义函数(UDFs)与内置函数主要有两点不同:
- 首先,UDFs 需要使用 REGISTER 关键字进行注册,才能在 Pig 中使用。
- 其次,使用时需要进行限定。
目前,Pig UDFs 可以用 Java、Python、Ruby、JavaScript 和 Groovy 实现。其中,Java 函数得到了最广泛的支持,它允许用户自定义数据加载、存储、转换和聚合等过程的各个部分。而且,Java 函数效率更高,因为它与 Pig 使用相同的语言实现,还支持额外的接口,如 Algebraic 和 Accumulator 接口。而 Ruby 和 Python API 则更适合快速原型开发。
UDFs 与 Pig 环境的集成主要通过以下两条语句管理:
- REGISTER :用于注册 JAR 文件,使文件中的 UDFs 可以被使用,示例代码如下:
REGISTER 'piggybank.jar'
-
DEFINE:为函数或流命令创建别名,示例代码如下:
DEFINE MyFunction my.package.uri.MyFunction
Pig 0.12 版本引入了 UDFs 流机制,用于使用没有
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



