【Elasticsearch】translog文件的写入删除流程

原创

已于 2025-11-22 15:36:01 修改 · 53 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #jenkins #大数据

于 2025-11-22 15:35:31 首次发布

User: private static Checkpoint readCheckpoint(Path location, String expectedTranslogUUID) throws IOException {
final Checkpoint checkpoint = readCheckpoint(location);
// We need to open at least one translog header to validate the translogUUID.
final Path translogFile = location.resolve(getFilename(checkpoint.generation));
try (FileChannel channel = FileChannel.open(translogFile, StandardOpenOption.READ)) {
TranslogHeader.read(expectedTranslogUUID, translogFile, channel);
} catch (TranslogCorruptedException ex) {
throw ex; // just bubble up.
} catch (Exception ex) {
throw new TranslogCorruptedException(location.toString(), ex);
}
return checkpoint;
} /** package private for testing */
public static String getFilename(long generation) {
return TRANSLOG_FILE_PREFIX + generation + TRANSLOG_FILE_SUFFIX;这个是读的什么文件呀？
}
Kimi: 你这段代码是 **Elasticsearch**（或基于 Lucene 的类似系统）中用于读取 **translog（事务日志）** 的 `Checkpoint` 文件和对应的 `.tlg` 日志文件的逻辑。

---

### ✅ 回答重点：**读的是什么文件？**

它读的是：

> **translog 日志文件**，文件名格式为：
> ```
> translog-[generation].tlg
> ```

---

### 🔍 具体解释：

#### 1. `getFilename(long generation)` 方法
```java
public static String getFilename(long generation) {
return TRANSLOG_FILE_PREFIX + generation + TRANSLOG_FILE_SUFFIX;
}
```

- `TRANSLOG_FILE_PREFIX` 通常是 `"translog-"`
- `TRANSLOG_FILE_SUFFIX` 通常是 `".tlg"`

所以，比如 `generation = 12`，文件名就是：
```
translog-12.tlg
```

---

#### 2. `readCheckpoint(...)` 方法做了什么？

它做了两件事：

1. **读取 checkpoint 文件**（通常是 `translog.ckp`），里面保存了当前 translog 的元信息，比如：
- 当前 generation（即最新日志文件编号）
- 操作数（ops）
- 最小/最大序列号等

2. **验证对应的 translog 文件是否合法**：
- 根据 checkpoint 中的 generation，拼出文件名（如 `translog-12.tlg`）
- 打开这个文件，读取文件头（`TranslogHeader`）
- 检查 `translogUUID` 是否匹配，防止错乱或损坏

---

### 📁 总结：读的是哪个文件？

| 文件类型 | 文件名示例 | 作用说明 |
|------------------|--------------------|----------|
| Checkpoint 文件 | `translog.ckp` | 保存当前 translog 的元信息（如 generation） |
| Translog 日志文件 | `translog-12.tlg` | 实际的事务日志数据文件，记录写操作 |

---

### ✅ 一句话总结：
> 这段代码读的是 **`translog-{generation}.tlg`** 文件，即 Elasticsearch 的事务日志文件，用于恢复未刷盘的写操作。
User: translog文件有几种分别是存啥的？
Kimi: 在 Elasticsearch（和底层 Lucene）中，**translog** 并不是单一文件，而是一组文件，按生命周期和作用可以分成 **3 种“形态”**（其实是 3 类文件）。它们都位于
`<shard-path>/index/translog/` 目录下，文件名统一以 `translog-` 开头。

| 文件（或形态） | 命名规则 | 存放内容 | 生命周期 | 备注 |
|---|---|---|---|---|
| 1. 当前活跃 translog | `translog-{gen}.tlog` | 实时写入的索引操作（增、删、改） | 从 `open->close` 可能持续小时级 | 文件句柄一直被持有，fsync 频率由 `index.translog.sync_interval` 控制 |
| 2. 只读旧 translog | `translog-{gen}.tlog`（同扩展名，但已关闭） | 历史事务日志，尚未被“安全截断” | 保留到 Lucene commit 完成且无需恢复 | 文件只读，可继续用于副本恢复或跨节点文件拷贝 |
| 3. checkpoint 文件 | `translog.ckp` | 全局元数据：当前最小/最大 generation、最小需保留的 translog 位置、操作数、UUID、大小等 | 每次创建/删除 tlog 文件时原子重写 | 无并发写，体积很小（<1 KB），用于启动时快速定位要加载的 tlog 范围 |

> 说明
> - 所有 `.tlog` 文件内部结构完全一致，只是“是否仍可写”这一状态不同；因此**严格来说只有 2 种文件类型**：`.tlog` 数据文件和 `.ckp` 元数据文件。
> - 没有“归档 translog”“索引 translog”之类额外类别；ES 7.x 之后也不再按“大小”切分 generation，只按 **Lucene commit + 安全截断** 触发滚动。
> - 每次执行 **flush**（Lucene commit）后，会把 flush 前的所有旧 generation 删掉，并新建一个新的 `translog-{newGen}.tlog` 作为活跃文件，同时重写 `translog.ckp`。

一句话总结：
目录里只有两类实体——**`translog-*.tlog`**（事务日志数据，分“正写”和“只读”两种状态）和 **`translog.ckp`**（轻量级 checkpoint 元数据）。
User: 这两种文件分别是干啥的？
Kimi: 把两种文件拆开说，就记住一句话：

> `.tlog` 存 **“写操作”**
> `.ckp` 存 **“目录”**

---

### 1. `translog-*.tlog`（数据文件）
- **存什么**
自上一个 Lucene commit 之后，所有还没被刷盘的 **索引写操作**（index/delete/update 的底层指令）以及它们的顺序号、版本号、id 等。
- **干什么用**
-