2017 面试总结&&58 面试

最新推荐文章于 2025-05-01 20:45:41 发布

原创最新推荐文章于 2025-05-01 20:45:41 发布 · 598 阅读

1 ·

CC 4.0 BY-SA版权

【面试】专栏收录该内容

42 篇文章

订阅专栏

本文介绍如何使用 Spark Streaming 进行实时数据处理，包括通过网络端口读取数据、统计单词频率，以及整合 Kafka 完成网站点击流的实时统计。

1.ailibabafail.

2.cttc fail

3.58 fail

4.YYXINT fail.

4.SR OK offer.

这是没有比较的offer.

----------------------------------------------------------`

58 面试到时没有什么

被Spark的demo 给搞晕了。

附录Spark 在线和实时的统计。

架构图：

1.yum 安装一个 nc

启动端口9999

2.编写 SparkStreaming 程序

object  NetworkworkCount{


    def main( args: Array[String]){


        //设置日志级别
        LoggerLevel.setStreamingLogLevels()

        //创建sparkConf 并配置 本地模式

        var conf =new SparkConf().setMaster("local[2]").setAppNamesetAppName("NetworkWordCount");


        //设置DStream 批次的时间间隔为2s
        var ssc=new StreamingContext(conf,Seconds(2));
        //通过网络读取数据库

        var lines=ssc.socketTextStream("192.168.10.101",9999);
        //讲读到的数据用空格切成单词

        var words=lines.flatMap( _.split("") );

        //将单词进行分组求相同的单词出现的次数
        var wordCounts=pairs.reduceByKey(_+_)

        //打印结果的输出到控制台
         wordCounts.print()
         ssc.start();

        ssc.awaitTermination();

        


        }

//启动Spark Steaming 程序：由于使用的是本地i的模式

注意：要制定并行度，如在本地运行设置setMaster(""),相当于启动了2个线程

一个给recevier,一个给computer.如果是在集群中，必须要求可用的core数目大于1.

4.启动Sparking Streaming 程序

在linux 端命令行输入单词

nc -lk 9999

5.在IEDA控制台中查看结果

每次在Linux短输入的单词次数被正确的统计出来，但是结果不能累加。

如果需要累加需要使用updateStateBykey(func) 来更新状态。

代码如下：

var updateFunc=(iter:Iterator[(String,Seq[Int]),Option[int]])=>{

//iter.flatMap{case(x,y,z) => Some(y.sum+z.getOrElse(0)).map(m=>(x,m)) }