Elasticsearch-js 中使用 asStream 实现流式处理的技术解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00840/article/details/148505883

Elasticsearch-js 中使用 asStream 实现流式处理的技术解析

elasticsearch-js 项目地址: https://gitcode.com/gh_mirrors/ela/elasticsearch-js

流式处理的概念与优势

在 Elasticsearch-js 客户端库中，asStream 是一个强大的功能选项，它允许开发者以 Node.js 流(Stream)的形式获取 Elasticsearch 的响应数据，而不是直接获取解析后的 JSON 对象。这种处理方式在特定场景下具有显著优势：

内存效率：对于大型数据集，流式处理可以避免一次性加载所有数据到内存中
实时性：可以边接收数据边处理，实现更快的响应
管道操作：方便与其他流处理工具或中间件集成

基础使用示例

让我们通过一个完整的示例来理解 asStream 的工作方式：

'use strict'

const { Client } = require('@elastic/elasticsearch')
const client = new Client({
  cloud: { id: '<cloud-id>' },
  auth: { apiKey: 'base64EncodedKey' }
})

async function run () {
  // 批量索引文档
  const bulkResponse = await client.bulk({
    refresh: true,
    operations: [
      { index: { _index: 'game-of-thrones' } },
      {
        character: 'Ned Stark',
        quote: 'Winter is coming.'
      },
      // 更多文档...
    ]
  })

  if (bulkResponse.errors) {
    console.log(bulkResponse)
    process.exit(1)
  }

  // 使用流式搜索
  const result = await client.search({
    index: 'game-of-thrones',
    query: {
      match: {
        quote: 'winter'
      }
    }
  }, {
    asStream: true  // 关键配置
  })
  
  // 流处理方式1：异步迭代(Node.js ≥10)
  let payload = ''
  body.setEncoding('utf8')
  for await (const chunk of result) {
    payload += chunk
  }
  console.log(JSON.parse(payload))

  // 流处理方式2：传统回调方式
  let payload = ''
  result.setEncoding('utf8')
  result.on('data', chunk => { payload += chunk })
  result.on('error', console.log)
  result.on('end', () => {
    console.log(JSON.parse(payload))
  })
}

run().catch(console.log)

实际应用场景

1. 中间服务实现

asStream 特别适合用于构建中间服务，可以高效地将 Elasticsearch 的响应转发给客户端：

'use strict'

const { Client } = require('@elastic/elasticsearch')
const client = new Client({
  cloud: { id: '<cloud-id>' },
  auth: { apiKey: 'base64EncodedKey' }
})
const fastify = require('fastify')()

fastify.post('/search/:index', async (req, reply) => {
  const { body, statusCode, headers } = await client.search({
    index: req.params.index,
    ...req.body
  }, {
    asStream: true,
    meta: true  // 获取完整的响应元数据
  })

  // 直接转发响应
  reply.code(statusCode).headers(headers)
  return body
})

fastify.listen(3000)

2. 大数据量处理

当处理可能返回大量数据的查询时，流式处理可以显著降低内存使用：

const { pipeline } = require('stream')
const { Transform } = require('stream')

// 创建转换流处理数据
const transformStream = new Transform({
  transform(chunk, encoding, callback) {
    // 在这里处理数据块
    this.push(processChunk(chunk))
    callback()
  }
})

// 使用管道连接流
pipeline(
  searchResultStream,
  transformStream,
  process.stdout,
  (err) => {
    if (err) console.error('Pipeline failed', err)
  }
)