
bigdata
文章平均质量分 51
努力的Frank
这个作者很懒,什么都没留下…
展开
-
trident demo 1
做几个storm的小程序来练手,买了一本Storm的书,但是书中的代码运行都报错,实在是心累啊。这本书出版较早,所用的storm和zookeeper的版本都较早,所以出现了一些方法已经不存在的问题。在我的艰难探索下,纠正了很多。书中的例子涉及内容很多,有kafka的,Cassandra的,Tina的,openfire的,等等等等。简直就是百科全书啊,与其说是Storm的书,倒不如是介绍各种流行技术的原创 2017-07-20 13:36:41 · 732 阅读 · 0 评论 -
trident demo 2
今天来将上次的kafka tridentredis 结合的demo完成,回顾下上篇中的数据流程。好的我们先来完成trident部分。日志打印部分思路很清晰了,就是时间戳,城市名,病症id 的形式。 topology.newStream("kafkaspout",kafkaspout) .each(newFields("str"),new Func1(),new Fields(原创 2017-07-20 13:46:06 · 330 阅读 · 0 评论 -
Spark RDD API
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaDoubleRDD;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.ja原创 2017-08-04 00:39:50 · 285 阅读 · 0 评论 -
Spark PairRDD API
import org.apache.spark.HashPartitioner;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.Java原创 2017-08-04 00:44:08 · 864 阅读 · 0 评论 -
Spark IO API
spark读取文件和写入文件的APIpath参数默认不加协议走的是file:///,如果是hdfs的文件则可以用hdfs://master:port/pathimport org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred.KeyValueTextInp原创 2017-08-04 16:54:29 · 290 阅读 · 0 评论 -
Spark执行原理解惑
Spark运行原理写好的程序(jar包)又叫驱动程序,提交后,会根据里面的参数生成spark上下文,然后根据里面rdd的处理方式,产生一个有向无环图,将这个图广播到集群的每个客户端,客户端进行rdd的相应处理,如果是转换操作的则只记录操作步骤并不实际转换,如果是行为操作如count函数,则会实际操作这个行动并且将行为操作的返回值(如long list等)返回给驱动程序。驱动程序的概念理解https:原创 2017-08-06 19:51:01 · 332 阅读 · 0 评论 -
pipelinedb
Quick Start Guide1.下载安装下载页面:https://www.pipelinedb.com/download ubuntu下安装dpkg -i pipelinedb-0.9.8u2-ubuntu16-x86_64.deb2.配置启动创建一个非root用户useradd -g root frank切换到用户:su frank初始化数据目录:pipeline-init -D <dat原创 2017-10-28 22:47:33 · 1308 阅读 · 0 评论