Flink入门案例(Word Count)

最新推荐文章于 2024-04-05 18:52:25 发布

Mr.ChowSit

最新推荐文章于 2024-04-05 18:52:25 发布

阅读量373

点赞数

CC 4.0 BY-SA版权

分类专栏： Flink 文章标签： flink

本文链接：https://blog.youkuaiyun.com/DataIntel_XiAn/article/details/100421849

本文通过Flink 1.9.0演示了Word Count的实现过程，包括安装、启动本地监听模式、作业提交、数据发送及查看输出结果，帮助理解流式数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Flink安装包下载【flink-1.9.0-bin-scala_2.11.tgz】

略

启动

[hadoop@hadoop flink-1.9.0]$ ./bin/start-cluster.sh
Starting cluster.
Starting standalonesession daemon on host hadoop.
Starting taskexecutor daemon on host hadoop.

启动本地监听模式端口9000

nc -l 9000

启动作业

./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000

登录本机8081地址，可以看到已经提交了一个作业正在运行

本地监听模式发送数据

[hadoop@hadoop flink-1.9.

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mr.ChowSit

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据Flink（一百一十四）：PyFlink的作业开发入门案例

Lansonli（蓝深李）的博客

09-07

1423

编写Flink程序，读取表中的数据，并根据表中的字段信息进行统计每个单词出现的数量。编写Flink程序，接收socket的单词数据，并以逗号进行单词拆分打印。注意：socketTextStream后的ip是云服务器ecs的公网ip。注意read_text_file后的地址要与实际地址对应。安装nc: yum install -y nc）（如果没有安装可以使用yum。开启netcat，监听。在ecs依次发送单词。

踩坑完毕：手把手带你使用Flink尝鲜Paimon入门案例（强烈建议收藏）

最新发布

遇码开源社区

03-14

2672

本文为大家讲解如何使用Flink完成Paimon官方的入门案例，建议大家收藏（对英文文档有恐惧感）。

参与评论您还未登录，请先登录后发表或查看评论

WordCount.jar

08-07

flink1.9版本自带的wordcount例子，位于flink-1.9.0\examples\streaming目录下

Flink word count demo

qq_38374562的博客

11-06

325

如题。工程目录 hello文本文件是给wordcount的批处理用的数据源，流处理的StreamWordCount的数据源为socket实时发送过来的数据源。放代码 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

Google python wordcount.py (python 2.7)

sxszwwzgy的博客

06-10

237

#!/usr/bin/python -tt The main() below is already defined and complete. It calls print_words() and print_top() functions which you write. 1. For the --count flag, implement a print_words(filena...

flink简单应用: scala编写wordcount

eyeofeagle的博客

03-11

5736

在ida中创建maven项目，配置scala环境，调用flink-streaming-scala的api 1,配置pom.xml &amp;amp;amp;amp;amp;lt;dependency&amp;amp;amp;amp;amp;gt; &amp;amp;amp;amp;amp;lt;groupId&amp;amp;amp;amp;amp;gt;org.apache.flink&amp

Flink入门之WordCount（Scala语言）

Joker_Jiang3的博客

08-18

824

Flink入门之WordCount（Scala语言）流式处理一.创建一个Maven工程 1.pom.xml文件依赖 <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <vers

Flink 系列：Flink 入门不再难！3000字深入浅出 WordCount 实战及精解

CREATE_17的博客

04-05

790

在这个数据驱动的时代，掌握大数据技术成为了每一位开发者必不可少的技能。而在众多技术栈中，Flink无疑占据了重要的位置。作为一个高性能、可扩展的实时数据处理框架，Flink已经成为了很多企业和开发者的首选。但对于初学者来说，Flink的学习曲线可能会显得有些陡峭。因此，我们决定打造一系列通俗易懂的Flink学习文章，希望能帮助大家更快地掌握这一强大的技术。

Flink入门编程

TU_JCN的博客

08-20

1169

1、Flink编程入门案例 1.1、实时处理代码开发开发flink代码，实现统计socket当中的单词数量第一步：创建maven工程，导入jar包 <dependencies>  <dependency> <groupId>org.apache.flink&l

docker flink集群中运行socketWordcount项目

qq_43034505的博客

01-09

585

使用mvn构建项目使用mvn命令，输入如下命令 mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-quickstart-java \ -DarchetypeVersion=1.6.1 \ -DgroupId=my-flink-project \ -DartifactId=my-flink-project \ -Dversion=

基于docker flink 的 SocketWordcount 运行

crhcyq的博客

01-12

468

Docker Flink初战：打包运行SocketWordCount项目（超详细）文章目录Docker Flink初战：打包运行SocketWordCount项目（超详细）前言一、实验目的二、实验平台三、实验内容3.1 idea下创建maven项目3.2 修改pom文件3.3 创建类类BatchJob类SocketWindowWordCount：类StreamingJob3.4 打包3.5 上传到集群四、实验心得前言本篇文章手把手教你在idea打包flink项目并提交到docker下的flink集

Flink 入门wordcount

张俊杰的博客

06-05

213

txt文档内容 hello world hello flink hello scala how are you fine thank you and you scala代码 import org.apache.flink.api.scala._ // 批处理 word count object WordCount { def main(args: Array[String]): Unit = { // 创建一个批处理的执行环境,这里是批处理环境,流处理环境和这个批处理环境不一样的.

Scala Flink之WordCount的两种处理案列

小狐白白的博客

07-04

578

Flink学习笔记之WordCount

Flink实例-Wordcount详细步骤

weixin_30292843的博客

08-09

393

link实例之Wordcount详细步骤 1.我的IDE是IntelliJ IDEA.在官网上https://www.jetbrains.com/idea/下载最新版2018.2的IDEA，如下图。破解可以再http://idea.lanyus.com/上获取破解码进行破解，如下图。 2.当IDE准备就绪后，开始创建一个项目名为bbb的maven项目，如下图。 ...

flink wordcount demo

H.king的博客

05-14

502

demo package com.hbn.wc import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment} import org.apache.flink.api.scala._ object WordCount { def main(args: Array[String]): Unit = { //获取执行环境 val env = ExecutionEnvironment.getExecutionE.

Flink_Flink的第一个程序，Streaming WordCount

迎难而上

05-25

1045

最近，我学习了Flink, 写了个FlinkWordCount。依赖这里使用Maven 进行代码管理：父Pom <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio.

最详细Flink安装以及案例之WordCount

IT晓白

01-23

3539

前言：本文主要介绍如何将Flink以本地模式运行在单机上。运行环境 Linux-CentOS6.8 JDK-1.8 hadoop-2.7.5 flink-1.7.1-bin-hadoop27-scala_2.11 flink安装配置过程 1.下载 1.1进入下载页面。如果你想让Flink与Hadoop进行交互（如HDFS或者HBase），请选择一个与你的Hadoop版本相匹配的Flink包。...

Flink部署安装及其WorldCount执行

杨得朝的博客

11-09

2129

Flink启动及其WorldCount执行大家好，是瓜哥，最近几年，大数据处理组件Flink非常火，作为一个从事多年java的老程序员，也得跟上时代的技步伐，不然迟早就会被这个技术千变万化的时代抛弃。 Flink 是一个针对流数据和批数据的分布式处理引擎，代码主要是由 Java 实现，部分代码是 Scala。它可以处理有界的批量数据集、也可以处理无界的实时数据集。对 Flink 而言，其所要处理的主要场景就是流数据，批数据只是流数据的一个极限特例而已，所以 Flink 也是一款真正的流批统一的计...

第二课 Flink 安装部署、环境配置及运行应用程序（1）

博客

08-15

3071

第二课

flink java 示例

01-11

### Flink Java 示例代码及教程 #### Maven 依赖配置为了在项目中使用 Apache Flink 和 Java 进行开发，需要先设置项目的 Maven 依赖。以下是创建基于 Flink 的 Java 应用程序所需的 POM 文件中的部分配置[^1]： ```xml <dependencies>  <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>${flink.version}</version> </dependency>  <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> <version>${flink.version}</version> </dependency>  </dependencies> ``` #### WordCount 实现案例 WordCount 是学习分布式计算框架的经典入门例子之一，在这里提供了一个简单的批处理版本的 WordCount 程序作为参考[^2]: ```java import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.api.java.DataSet; import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.util.Collector; public class BatchWordCount { public static void main(String[] args) throws Exception { final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); DataSet<String> text = env.readTextFile("src/main/resources/input/word.txt"); DataSet<Tuple2<String, Integer>> counts = text.flatMap(new Tokenizer()) .groupBy(0) .sum(1); counts.writeAsCsv("output", "\n", " "); env.execute("Batch Word Count Example"); } public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> { @Override public void flatMap(String value, Collector<Tuple2<String, Integer>> out) { String[] tokens = value.toLowerCase().split("\\W+"); for (String token : tokens) { if (token.length() > 0) { out.collect(new Tuple2<>(token, 1)); } } } } } ``` 此段代码展示了如何利用 `ExecutionEnvironment` 来定义执行环境，并通过调用 `readTextFile()` 方法加载文件内容形成数据集；接着应用自定义函数 `Tokenizer` 对每条记录做分割统计操作。 #### 使用Lambda表达式的改进版FlatMap方法除了传统的匿名内部类形式外，还可以采用更简洁优雅的方式——即Java8引入的Lambda表达式来简化上述flatMap逻辑: ```java DataSet<Tuple2<String, Integer>> wordCounts = text.flatMap((String line, Collector<Tuple2<String, Integer>> out) -> { Arrays.stream(line.split("\\W+")) .filter(word -> !word.isEmpty()) .forEach(word -> out.collect(Tuple2.of(word, 1))); }); ``` 这段代码实现了相同的功能但是更加紧凑易读。