flink实战教程-使用set实时计算当天网站uv

背景

对于web网站,我们一般会有这样的需求,实时的计算出来当天网站的uv,尽可能快的展示出来。今天我们就讲一下基于java的set集合做一下实时uv的统计。

简易需求:

  • 实时计算出当天零点截止到当前时间各个端(android,ios,h5)下的uv
  • 每秒钟更新一次统计结果

案例讲解

模拟source

首先我们模拟生成一下最简单的数据,生成一个flink的二元组Tuple2.分别表示分类和用户id


	public static class MySource implements SourceFunction<Tuple2<String,Integer>>{
		private volatile boolean isRunning = true;
		String category[] = {"Android", "IOS", "H5"};
		@Override
		public void run(SourceContext<Tuple2<String,Integer>> ctx) throws Exception{
			while (isRunning){
				Thread.sleep(10);
				//具体是哪个端的用户
				String type = category[(int) (Math.random() * (category.length))];
				//随机生成10000以内的int类型数据作为userid
				int userid = (int) (Math.random() * 10000);
				ctx.collect(Tuple2.of(type, userid));
			}
		}
		@Override
		public void cancel(){
			isRunning = false;
		}
	}

定义窗口

接下来我们定义一个周期是一天的滑动窗口,因为我们要每秒钟输出窗口的数据,所以我们紧接着窗口定义了一个1秒的触发器。


DataStream<Tuple2<String,Integer>> dataStream = env.addSource(new MySource());
   	dataStream.keyBy(0).window(TumblingProcessingTimeWindows.of(Time.days(1), Time.hours(-8)))
   	          .trigger(ContinuousProcessingTimeTrigger.of(Time.seconds(1)))
   	          .aggregate(new MyAggregate(),new WindowResult())
   	          .print();

自定义聚合算子

接下来我们自定义一个聚合算子来实现该功能。

对于聚合算子的理解可以参考这个文章:

https://mp.weixin.qq.com/s/ZCWexNGzhSchRpxipa1x-g

	public static class MyAggregate
			implements AggregateFunction<Tuple2<String,Integer>,Set<Integer>,Integer>{
		@Override
		public Set<Integer> createAccumulator(){
			return new HashSet<>();
		}
		@Override
		public Set<Integer> add(Tuple2<String,Integer> value, Set<Integer> accumulator){
			accumulator.add(value.f1);
			return accumulator;
		}
		@Override
		public Integer getResult(Set<Integer> accumulator){
			return accumulator.size();
		}
		@Override
		public Set<Integer> merge(Set<Integer> a, Set<Integer> b){
			a.addAll(b);
			return a;
		}
	}

处理输出结果

我们这里将结果输出到控制台,实际的生产中我们可以将数据写入redis或者hbase等。


1> Result{, dateTime='2020-06-21 19:23:30'type='IOS', uv=136}
2> Result{, dateTime='2020-06-21 19:23:30'type='Android', uv=150}
1> Result{, dateTime='2020-06-21 19:23:30'type='H5', uv=134}
1> Result{, dateTime='2020-06-21 19:23:31'type='IOS', uv=164}
2> Result{, dateTime='2020-06-21 19:23:31'type='Android', uv=177}
1> Result{, dateTime='2020-06-21 19:23:31'type='H5', uv=167}
2> Result{, dateTime='2020-06-21 19:23:32'type='Android', uv=205}
1> Result{, dateTime='2020-06-21 19:23:32'type='IOS', uv=193}
1> Result{, dateTime='2020-06-21 19:23:32'type='H5', uv=198}

完整代码请参考
https://github.com/zhangjun0x01/bigdata-examples/blob/master/flink/src/main/java/windows/RealTimePvUv_Set.java

欢迎关注我的公众号:【大数据技术与应用实战】获取更多精彩内容
在这里插入图片描述

您好!对于使用Flink SQL将数据流写入文件系统,您可以通过以下步骤来实现: 1. 导入所需的依赖项 首先,您需要在您的项目中添加Flink SQL和所选文件系统的相关依赖项。例如,如果您想将数据写入HDFS文件系统,您需要添加相关的Hadoop依赖项。 2. 创建一个Flink StreamTableEnvironment 通过创建一个Flink StreamTableEnvironment,您可以使用Flink SQL来处理和操作流数据。 ```java StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env); ``` 3. 定义输入表和输出表 您需要定义一个输入表和一个输出表,以便在Flink SQL中引用它们。 ```java tableEnv.executeSql("CREATE TABLE inputTable (field1 INT, field2 STRING) WITH (...)"); tableEnv.executeSql("CREATE TABLE outputTable (field1 INT, field2 STRING) WITH (...)"); ``` 在上述代码中,您需要根据实际情况替换`WITH (...)`部分,并根据您的输入数据源和输出目标进行配置。 4. 将数据流写入输出表 使用Flink SQL的INSERT INTO语句,您可以将数据从输入表写入输出表。 ```java tableEnv.executeSql("INSERT INTO outputTable SELECT * FROM inputTable"); ``` 在上述代码中,我们使用SELECT *从输入表中选择所有字段,并将其插入输出表中。 5. 执行Flink程序 最后,使用`env.execute()`来触发Flink程序的执行。 ```java env.execute(); ``` 这将启动Flink作业并开始将数据流写入文件系统。 请注意,上述步骤是一个简单的示例,您需要根据实际情况进行适当的配置和调整。另外,根据您选择的文件系统,可能还需要进行额外的配置和设置。 希望以上信息对您有所帮助!如有任何进一步的问题,请随时提问。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值