
大数据之spark一些例子
lv_yishi
这个作者很懒,什么都没留下…
展开
-
spark streaming中WordCount
通过一些简单的案例,可以知道一些大致的用法1.对每一个批次的数据进行操作:import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spar...原创 2018-11-10 00:42:23 · 1066 阅读 · 0 评论 -
udf和udaf
UDF:计算单词的长度import org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{Row, SparkSession}object udfDemo { def main(args: Array[String]): Unit = { va...原创 2018-11-29 12:51:45 · 670 阅读 · 0 评论 -
StructuredStreaming
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object StructuredStreamingDemo { def main(args: Array[String]): Unit = { //获取程序入口sparkSession val sparksession = SparkSession...原创 2018-11-16 00:30:05 · 302 阅读 · 0 评论 -
kafka之直连方式
直连方式:import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport kafka.utils.{ZKGroupTopicDirs, ZkUtils}import org.I0Itec.zkclient.Zk...原创 2018-11-29 15:29:12 · 1595 阅读 · 0 评论 -
基于kafka的SparkStraming的WC--SparkStramingKafkaWC
import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, Streami...原创 2018-11-14 19:53:43 · 341 阅读 · 0 评论 -
基于kafka模拟生产者和消费者
zookeeper的启动脚本:#!/bin/shecho "start zookeeper server..."hosts="hadoop0300 hadoop0301 hadoop0302"for host in $hostsdo ssh $host "source /etc/profile; /root/app/zookeeper-3.4.7/bin/zkServer....原创 2018-11-14 19:43:03 · 5165 阅读 · 3 评论 -
spark streaming中窗口函数的简单实用windowOpObj
import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object windowOpObj { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppN...原创 2018-11-14 16:47:06 · 389 阅读 · 0 评论 -
基于sparksql的WC
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object sparkSqlWC { def main(args: Array[String]): Unit = { //定义一个sparkSession,getOrCreate相当于单例,如果有SparkSession对象直接使用,没有就直接创...原创 2018-11-14 16:38:23 · 465 阅读 · 0 评论 -
spark中join的简单操作
(1)RDD之间的joinimport org.apache.spark.sql.SparkSessionobject joinDemo { //BroadcastHashJoin def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder().appName("join...原创 2018-11-11 15:38:22 · 1963 阅读 · 1 评论 -
基于2.11.8版本的DataFrame的使用sql
(1)DataFrame使用import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object sparkSqlWC { def main(args: Array[String]): Unit = { //定义一个sparkSession,getOrCreate相当于单例,如果有SparkS...原创 2018-11-11 14:45:38 · 592 阅读 · 0 评论 -
SparkWordCount和JavaWordCount
(1)SparkWordCountimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject SparkWordCount { def main(args: Array[String]): Unit = { //创建配置信息 val sparkConf...原创 2018-11-11 13:34:36 · 1905 阅读 · 2 评论 -
基于2.10.6版本的DataFrame操作sql
(1)使用反射的方式import org.apache.spark.sql.{DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContext}object sprkSql { def main(args: Array[String]): Unit = { val conf = new SparkC...原创 2018-11-11 13:20:50 · 243 阅读 · 0 评论 -
spark中实现自定义排序
排序的方式可以分为6中:(1)使用一个自定义一个普通的类继承Ordered[User] with Serializableimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object CustomSort1 { //排序规则:首先按照颜值的降序,如果颜值相等,再按照年...原创 2018-11-11 13:00:13 · 989 阅读 · 0 评论 -
spark streaming中transform过滤广告黑名单
/*transform操作,应用在DStream上时,可以用于执行任意的RDD到RDD的转换操作。它可以用于实现,DStream API中所没有提供的操作。比如说,DStream API中,并没有提供将一个DStream中的每个batch,与一个特定的RDD进行join的操作。但是我们自己就可以使用transform操作来实现该功能。DStream.join(),只能join其他D...原创 2018-11-10 08:39:53 · 471 阅读 · 0 评论 -
spark streaming中reduceByKeyAndWindow简单例子
窗口的一些简单操作import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object windowOpObj { def main(args: Array[String]): Unit = { val conf = new SparkCon...原创 2018-11-10 08:30:44 · 764 阅读 · 0 评论 -
sparkStreaming-获取kafka数据并按批次累加
sparkStreaming-获取kafka数据并按批次累加import org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.kafka.KafkaUtils...原创 2018-11-29 15:28:47 · 2272 阅读 · 0 评论