
spark
TaoTao Li
擅长C/C++、Python、Golang编程
熟悉推理服务、搜索引擎、算法平台化开发
展开
-
spark开发环境搭建(centos6.3)
最近学习spark,因此想把相关内容记录下来,方便他人参考,也方便自己回忆吧spark开发环境的介绍资料很多,大同小异,我以自己的实际操作过程为准,详细记录下来。注意: 这里介绍的是开发环境搭建,不是spark集群环境搭建,主要参考其他博客内容,整理后汇总我的本地机器使用centos6.3, 这里配置spark1.6时,java1.6不能运行,因此升级到java1.8才原创 2016-10-12 10:28:53 · 3430 阅读 · 0 评论 -
spark完全分布式集群搭建
最近学习Spark,因此想把相关内容记录下来,方便他人参考,也方便自己回忆吧spark开发环境的介绍资料很多,大同小异,很多不能一次配置成功,我以自己的实际操作过程为准,详细记录下来。1、基本运行环境 spark的运行需要java和scala的支持,因此首先需要配置java、scala运行环境,网上资料很多,也很简单 详细内容参见上一篇博客(http://blog.原创 2016-10-12 10:56:10 · 22439 阅读 · 1 评论 -
pyspark-histogram详解
最近学习Spark,我主要使用pyspark api进行编程,网络上中文的解释不是很多,api官方文档也不是很容易明白,我结合自己的理解记录下来,方便别人参考,也方便自己回顾吧本次介绍的是 pyspark.RDD.histogramhistogram(buckets)输入参数buckets可以是一个数字,也可以是一个列表输出结果为一个元组,元组包含两个列表分别是桶和直方原创 2016-10-13 15:47:24 · 3428 阅读 · 1 评论 -
pyspark-combineByKey详解
最近学习Spark,我主要使用pyspark api进行编程,网络上中文的解释不是很多,api官方文档也不是很容易明白,我结合自己的理解记录下来,方便别人参考,也方便自己回顾吧本文介绍的是pyspark.RDD.combineByKeycombineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions原创 2016-10-13 18:15:15 · 4043 阅读 · 0 评论