
spark
genghaihua
这个作者很懒,什么都没留下…
展开
-
Spark脚本提交/运行/部署
本文转载地址:http://blog.youkuaiyun.com/sunbow0/article/details/42099331 尊重版权,谢谢分享1、Spark脚本提交/运行/部署 1.1 spark-shell(交互窗口模式)运行spark-shell需要指向申请资源的standalone spark集群信息,其参数为MASTER,还可以指定execu转载 2015-07-14 10:39:02 · 5310 阅读 · 0 评论 -
spark sql hive小文件优化
sparksession.sqlContext.setConf("hive.merge.mapfiles","true")sparksession.sqlContext.setConf("mapred.max.split.size","256000000")sparksession.sqlContext.setConf("mapred.min.split.size.per.node","192.原创 2018-03-22 13:17:46 · 5720 阅读 · 1 评论 -
spark streaming 优雅停止
设置 spark.streaming.stopGracefullyOnShutdown true原创 2018-01-04 13:14:59 · 461 阅读 · 0 评论 -
Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
saveAsNewAPIHadoopFiledef saveAsNewAPIHadoopFile[F def saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ saveAsNewAPIHadoopFile转载 2015-11-03 11:24:00 · 8948 阅读 · 0 评论 -
Spark: Transformation和Action
本文提供的是0.7.3版本中的action和transformation接口,RDD提供了两种类型的操作:transformation和action1,transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD2,action是得到一个值,或者一个结果(直接将RDD cache到内存中)所有的transformat转载 2015-11-03 09:45:54 · 508 阅读 · 0 评论 -
Spark 1.1.0 Basic Statistics(下)
本文转载于http://blog.selfup.cn/1157.html 程序员的自我修养 – SelfUp.cn ,谢谢分享。Hypothesis testingHypothesis testing,假设检验。Spark目前支持皮尔森卡方检测(Pearson’s chi-squared tests),包括适配度检定和独立性检定。皮尔森卡方检测皮尔森卡方检测转载 2015-09-23 17:32:35 · 1078 阅读 · 0 评论 -
Kafka 安装和测试
1. 简介 kafka (官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统,具有高性能和高吞吐率。 i. 消息的发布(publish)称作producer,消息的订阅(subscribe)称作consumer,中间的存储阵列称作broker。ii. 多个broker协同合作,producer、consumer和broker转载 2015-10-21 10:12:51 · 617 阅读 · 0 评论 -
ZooKeeper系列之八:ZooKeeper的简单操作
1 )使用 ls 命令来查看当前 ZooKeeper 中所包含的内容:[zk: 10.77.20.23:2181(CONNECTED) 1] ls /[zookeeper]2 )创建一个新的 znode ,使用 create /zk myData 。这个命令创建了一个新的 znode 节点“ zk ”以及与它关联的字符串:[zk: 10.77.20.23:2181(转载 2015-10-21 10:16:40 · 453 阅读 · 0 评论 -
kafka使用命令
上面的步骤都执行完了,环境算是好了,下面我们要测试下是否能成功运行kafka:1. 启动zookeeper server :bin/zookeeper-server-start.sh ../config/zookeeper.properties & (用&是为了能退出命令行)2. 启动kafka server: bin/kafka-server-start.sh ../config/转载 2015-10-21 10:14:17 · 1105 阅读 · 0 评论 -
kafka调优
合理设置batchduration 依据数据量合理设置kafka topic partition数目 kafka拉取量设置 maxRatePerPartition executor core的合理设置,避免资源闲置浪费 spark.task.maxFailures=1 spark.speculation为关闭状态...原创 2018-03-27 16:29:40 · 319 阅读 · 0 评论