
大数据技术
wjj547670933
这个作者很懒,什么都没留下…
展开
-
scala的option使用实例
下面是option的一个小练习,直接上代码:import scala.collection.mutable.ArrayBufferobject OptionTest { def main(args: Array[String]) { val tmp1 = Option(Array(1,2)) val tmp2 = Option(None) case原创 2016-05-25 21:27:45 · 815 阅读 · 0 评论 -
pig使用的一些注意事项
1.利用python做udf时,python的list对应pig的bag。2.宏里面对参数和返回值的引用任何时候总是带$。3.不要让int和long进行比较因为 java.lang.Long cannot be cast to java.lang.Integer4.使用pig python udf的时候,不要在python里面定义很大的map或者list,可以写成字符串然后用原创 2016-07-19 10:02:32 · 669 阅读 · 0 评论 -
scala中使用protobuf
最近一个项目中,需要在spark中解析protobuf编码过的数据。 针对这个问题,我首先试了一下在scala中解析protobuf编码后数据的功能,下面记录了详细过程 1.书写proto文件 2.编译proto文件,获取java类文件 3.把刚刚得到java类文件拷贝maven工程目录下,注意目录结果和package一致 4.修改m原创 2016-05-31 20:11:46 · 10422 阅读 · 0 评论 -
spark任务读取资源文件示例
我遇到下面的问题:给定一批ID,大约几万个,然后去日志里面把包含他们的记录捞出来.我们很自然想到的解决方法是:把这些ID写入一个文件,spark任务先读出这个文件的内容,然后再把内容广播到每个工作节点。这样做的话,我们有两个选择,一是把ID写入一个HDFS文件,spark任务读出并广播,然而这种做法需要把HDFS文件的路径写死在代码里,万一不小心删除或者移动了文件,spark任务就会失原创 2016-05-26 18:10:11 · 5767 阅读 · 0 评论