从CSV中获取数据并通过筛选后打印在控制台
1. 在流处理引擎中创建表执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tableenv = TableEnvironment.getTableEnvironment(env);
2. 创建表(注册表)并将CSV数据写入表中
TableSource 目前仅支持 CsvTableSource一种,也就是想要从数据源获取数据写入表时,只有csv文件可以直接使用TableSource进行读取,其他都需要先读取到DataStream,然后再将DataStream数据导入表,或者将DataStream转换为Table
String[] fields = new String[]{"id","name","age"};
TypeInformation[] fieldtype = new TypeInformation[]{Types.STRING,Types.STRING,Types.INT};
TableSource tsource = new CsvTableSource("../datasets/stuinfo.csv",fields,fieldtype);
tableenv.registerTableSource("student",tsource);
stuinfo.csv数据如下
1001,zhangsan,18
1002,lisi,20
1003,wangwu,23
1004,zhaoliu,25
3.1 通过Table API的方法查看表中名称为 wangwu 的学生信息
// scan表示扫表全表,即查询所有字段,如果只想获取个别字段,可以使用select方法
Table t1 = tableenv.scan("student").where("name='wangwu'");
3.2 通过SQL查看表中名称为 wangwu 的学生信息
Table t1 = tableenv.sqlQuery("select * from student where name='wangwu'");
4. 将查询结果转换为DataStream,并将结果输出到控制台
// Tuple类型因为必须声明每个参数类型,所以需要TypeInformation.of(new TypeHint<>(){})来进行声明
DataStream<Tuple3<String, String,Integer>> ds = tableenv.toAppendStream(t1,TypeInformation.of(new TypeHint<Tuple3<String, String,Integer>>(){}));
ds.print();
5. 完整代码
// 流执行引擎
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 表执行引擎
StreamTableEnvironment tableenv = TableEnvironment.getTableEnvironment(env);
/*
表注册: registerTableSource -- CsvTableSource
*/
// 字段名称
String[] fields = new String[]{"id","name","age"};
// 字段类型
TypeInformation[] fieldtype = new TypeInformation[]{Types.STRING,Types.STRING,Types.INT};
TableSource tsource = new CsvTableSource("E:\\IDEAProject\\Flink_Case\\FlinkDemo\\src\\main\\java\\gongcheng21\\datasets\\stuinfo.csv",fields,fieldtype);
// 注册表
tableenv.registerTableSource("student",tsource);
/*
表数据处理
*/
// 查看表中数据
Table t1 = tableenv.scan("student").where("name='wangwu'");
// 将表转换为DataStream类型
DataStream<Tuple3<String, String,Integer>> ds = tableenv.toAppendStream(t1,TypeInformation.of(new TypeHint<Tuple3<String, String,Integer>>(){}));
// 将数据打印在控制台
ds.print();
env.execute();