类型 | 操作 | 描述 |
---|---|---|
加载与存储 | LOAD | 将数据从文件系统加载,存入关系 |
STORE | 将一个关系存放到文件系统 | |
DUMP | 将关系打印到控制台 | |
过滤 | FILTER | 从关系中过滤掉不需要的行 |
DISTINCT | 从关系中删除重复的行 | |
FOREACH...GENERATE | 在关系中增加或删除字段 | |
STREAM | 使用外部的程序对关系进行变换 | |
SAMPLE | 从关系中随即取样 | |
分组与连接 | JOIN | 连接两个或者多个关系 |
COGROUP | 在两个或多个关系中对数据进行分组 | |
GROUP | 在一个关系中对数据进行分组 | |
CROSS | 获取两个或多个关系的乘积 | |
排序 | ORDER | 根据一个或多个字段对关系进行排序 |
LIMIT | 将关系的元组个数限定在一定数量内 | |
合并与分割 | UNION | 合并两个或多个关系 |
SPLIT | 把某一个关系切分成多个关系 |
来源:Hadoop权威指南 Tom White 著