
pig
文章平均质量分 60
CSLDBLYDX
这个作者很懒,什么都没留下…
展开
-
pig 编程指南笔记(二) 基础知识
加载: pig默认使用pigStora 函数加载 HDFS中的文件 默认的路径为当前用户的HDFS用户目录:/user/yourlogin 当然也可以指定完整的路径hdfs://localhost/data/filename 使用using指定用户指定的加载函数 可以指定参数,指定分隔符 divs = load 'filename' using pigStorage(',');--使‘原创 2015-07-25 18:27:30 · 655 阅读 · 0 评论 -
pig 编程指南笔记(三) 高级应用
flatten: 用来降低,bag、tuple的嵌套级别!hadoop中存储是相对比较廉价的,所以可以将一些在sql中要单独提出存储其它标的数据,直接存储在记录中,用冗余减少join操作,应为在hadoop中join是很耗时的,在数据中嵌套bag,可以看做,记录中嵌套另一条记录!有时需要将这个条码分离出来,则可以用flatten如果bag中有多条数据,则会用这条数据,与原记录做叉积!如果ba原创 2015-07-26 12:10:13 · 443 阅读 · 0 评论 -
pig 编程指南笔记
pig数据类型: pig的基本数据类型是和java一样的 pig中有复杂的数据类型 map tuple 元组: 以圆括号包裹,类似于sql里的一张表,元组中的数据类型可以任意,也可以指定,用以pig环境进行类型检查! tuple长度固定,可以用下标取值! bag: bag是无序的,不能按下标去取,可以用foreach逐个获取! NULL: pig中null表示数据未知,或者是原创 2015-07-25 16:01:37 · 822 阅读 · 0 评论