DataStream包装类

本文介绍了一个使用Java进行文件读写的示例程序。该程序通过DataOutputStream将字符串“中国是个和谐社会”写入到名为datastream.txt的文件中,并通过DataInputStream从同一文件中读取这些数据并打印出来。

package joeho.net.csdn.blog.io;


import java.io.*;
public class DateStream {
 
 /**
  * Method main
  *
  * @param args
  *
  */
 public static void main(String[] args) throws Exception {
  
  File strFile = new File("datastream.txt");
  FileOutputStream fos = new FileOutputStream(strFile);
  BufferedOutputStream bos = new BufferedOutputStream(fos);
  DataOutputStream dos = new DataOutputStream(bos);
  dos.writeUTF("中国是个和谐社会");
  dos.writeBytes("中国是个和谐社会");
  dos.writeChars("中国是个和谐社会");
  dos.close();
  
  FileInputStream fis = new FileInputStream(strFile);
  BufferedInputStream bis = new BufferedInputStream(fis);
  DataInputStream dis = new DataInputStream(bis);
  System.out.println(dis.readUTF());
  byte[] buff = new byte[1024];
  int len = dis.read();
  System.out.println(Integer.toString(dis.read(buff,0,len)));   
  
 } 
}

### ✅ 问题:`DataStream` 和 `SingleOutputStreamOperator` 的区别 --- ## 🚀 简短回答: - `DataStream` 是 Flink 流处理中最基础的抽象,表示一个**不可变的数据流**。 - `SingleOutputStreamOperator` 是 `DataStream` 的**子**,它在功能上与 `DataStream` 相同,但额外提供了**对算子(Operator)的精细控制能力**,比如设置名称、并行度、延迟提示等。 > ✅ 换句话说: > - 所有的 `SingleOutputStreamOperator<T>` 都是 `DataStream<T>`, > - 但不是所有的 `DataStream<T>` 都是 `SingleOutputStreamOperator<T>`。 > > 👉 **`SingleOutputStreamOperator` = `DataStream` + 可操作性增强** --- ## 🔍 详细解释 ### 1. 继承关系 ```text +------------------+ | DataStream<T> | +------------------+ ↑ extends | +-------------------------------------------+ | SingleOutputStreamOperator<T, ?> | +-------------------------------------------+ ``` - `SingleOutputStreamOperator` 继承自 `DataStream` - 它是对某些特定转换操作(如 `map`, `filter`, `process`)返回型的增强封装 --- ### 2. 什么时候返回 `DataStream`?什么时候返回 `SingleOutputStreamOperator`? #### 示例代码对比: ```java StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<String> stream = env.fromElements("a", "b", "c"); // ❌ map 返回的是 DataStream<Integer> DataStream<Integer> mapped = stream.map(s -> s.length()); // ✅ process 返回的是 SingleOutputStreamOperator<String> SingleOutputStreamOperator<String> processed = stream.process(new ProcessFunction<String, String>() { @Override public void processElement(String value, Context ctx, Collector<String> out) throws Exception { out.collect(value.toUpperCase()); } }); ``` 📌 关键点: - 大多数简单转换(如 `map`, `flatMap`, `filter`)返回的是 `DataStream` - 而 `process`, `keyBy`, 或自定义算子通常返回 `SingleOutputStreamOperator` - 实际上,很多内部实现会将 `DataStream` 包装为 `SingleOutputStreamOperator` 来暴露更多配置方法 --- ### 3. `SingleOutputStreamOperator` 提供了哪些额外功能? 这是它的核心价值所在! | 方法 | 作用 | |------|------| | `.name("My Operator")` | 设置算子名称(显示在 Web UI 中) | | `.uid("my-uid")` | 设置唯一 ID,用于从 Savepoint 恢复状态 | | `.setParallelism(4)` | 设置该算子的并行度 | | `.disableChaining()` | 禁止与其他算子链式合并(chaining) | | `.startNewChain()` | 从此算子开始新的 operator chain | | `.slotSharingGroup("group-name")` | 设置槽位共享组 | #### 示例:使用 `SingleOutputStreamOperator` 控制执行行为 ```java SingleOutputStreamOperator<String> uppercased = stream .process(new UppercaseProcessFunction()) .name("ToUpperCase") // ✅ 自定义名字 .uid("to-upper-processor") // ✅ 唯一标识(重要!用于升级和恢复) .setParallelism(2) // ✅ 设置并行度 .disableChaining(); // ✅ 不想和其他算子合并成 chain ``` 👉 这些方法在普通的 `DataStream` 上是**不可用的**。 --- ### 4. 为什么设计两个?为什么不直接扩展 DataStream? Flink 的设计哲学是: - `DataStream`:代表“流”的**逻辑视图** —— 我只关心数据怎么流转 - `SingleOutputStreamOperator`:代表“物理算子”的**可配置实体** —— 我要控制底层执行细节 这样做的好处: - 保持 API 清晰:用户不需要在每个 `map()` 后都能调 `disableChaining()` - 分离关注点:普通转换 vs 精细调优 - 兼容性好:很多高级特性只适用于特定算子型 --- ### 5. 如何把 `DataStream` 强转为 `SingleOutputStreamOperator`? 有时你需要对一个 `DataStream` 应用 `disableChaining()` 等操作,可以安全地进行强制转换(只要它实际是 `SingleOutputStreamOperator` 实例): ```java DataStream<Integer> mapped = stream.map(s -> s.length()); // ✅ 如果你知道它是由 process/map/filter 创建的,就可以强转 SingleOutputStreamOperator<Integer> chained = (SingleOutputStreamOperator<Integer>) mapped; chained.disableChaining(); // 现在可以禁用 chaining ``` ⚠️ 注意:如果底层不是 `SingleOutputStreamOperator` 实例,会抛出 `ClassCastException`。 --- ### 6. 典型应用场景对比 | 场景 | 推荐型 | 示例 | |------|----------|-------| | 简单 ETL 转换 | `DataStream` | `.map(...)`, `.filter(...)` | | 需要在 UI 显示名称 | `SingleOutputStreamOperator` | `.name("CleanseData")` | | 需要精确恢复状态 | `SingleOutputStreamOperator` | `.uid("user-profile-state")` | | 调试性能瓶颈 | `SingleOutputStreamOperator` | `.disableChaining()` 分开查看 | | 控制资源分配 | `SingleOutputStreamOperator` | `.slotSharingGroup("heavy-group")` | --- ## ✅ 总结 | 对比项 | `DataStream<T>` | `SingleOutputStreamOperator<T, ?>` | |--------|------------------|-------------------------------| | 是否基础型 | ✅ 是 | ❌ 否(是子) | | 是否支持 `.name()` / `.uid()` | ❌ 不直接支持 | ✅ 支持 | | 是否支持 `.disableChaining()` | ❌ 不支持 | ✅ 支持 | | 是否可用于所有转换 | ✅ 是 | ⚠️ 只适用于部分算子 | | 主要用途 | 数据流逻辑处理 | 算子级精细控制 | | 是否可相互赋值 | ✅ `SingleOutputStreamOperator` → `DataStream` | ❌ 反向需强转 | > 💡 **一句话总结:** > - 写业务逻辑用 `DataStream` > - 做性能调优、运维监控、状态管理时优先使用 `SingleOutputStreamOperator` ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值