node-fetch请求重试策略：提高分布式系统可靠性-优快云博客

node-fetch请求重试策略：提高分布式系统可靠性

【免费下载链接】node-fetch A light-weight module that brings the Fetch API to Node.js 项目地址: https://gitcode.com/gh_mirrors/no/node-fetch

你是否经常遇到API调用失败导致服务中断的问题？在分布式系统中，网络波动、服务过载等问题可能导致请求失败。本文将介绍如何使用node-fetch实现请求重试策略，帮助你提高系统的稳定性和可靠性。

读完本文后，你将能够：

了解请求重试的适用场景和最佳实践
掌握使用node-fetch实现基础重试逻辑的方法
学习如何实现指数退避和随机延迟等高级重试策略
了解如何结合错误类型和状态码进行智能重试决策

为什么需要请求重试

在分布式系统中，网络请求可能会因为各种原因失败。根据src/errors/fetch-error.js中的错误类型定义，常见的错误包括网络错误、超时错误、连接错误等。这些错误中，很多是暂时性的，通过简单的重试就可以解决。

请求重试可以显著提高系统的可靠性和用户体验。例如，当服务器暂时过载时，重试可以让请求在服务器恢复后成功执行。根据docs/ERROR-HANDLING.md中的最佳实践，实现合理的重试策略是处理网络不确定性的有效方法。

重试策略设计原则

设计重试策略时，需要考虑以下几个关键因素：

重试条件：哪些错误应该触发重试？哪些不应该？
重试次数：最多重试多少次？
重试延迟：两次重试之间应该等待多长时间？
退避策略：延迟时间应该保持不变还是动态调整？

根据src/index.js中fetch函数的实现，我们可以看到node-fetch已经内置了对重定向的处理（第143行），但对于其他类型的错误则需要我们自己实现重试逻辑。

基础重试实现

下面是一个基础的重试实现，它会在遇到网络错误时重试请求：

const fetch = require('node-fetch');

async function fetchWithRetry(url, options = {}, retries = 3) {
  try {
    const response = await fetch(url, options);
    
    // 根据状态码决定是否重试
    if (!response.ok && [429, 500, 502, 503, 504].includes(response.status)) {
      if (retries > 0) {
        return fetchWithRetry(url, options, retries - 1);
      }
    }
    
    return response;
  } catch (error) {
    // 根据错误类型决定是否重试
    if (retries > 0 && isRetryableError(error)) {
      return fetchWithRetry(url, options, retries - 1);
    }
    throw error;
  }
}

function isRetryableError(error) {
  // 检查是否是可重试的错误类型
  // 参考 src/errors/fetch-error.js 中的错误定义
  return error.type === 'system' || 
         error.code === 'ETIMEDOUT' || 
         error.code === 'ECONNRESET' ||
         error.code === 'ECONNREFUSED';
}

这个实现中，我们定义了一个fetchWithRetry函数，它接受URL、选项和重试次数作为参数。当遇到网络错误或特定的HTTP状态码时，它会自动重试请求。

指数退避策略

固定延迟的重试可能会导致"重试风暴"，即大量请求在同一时间重试，给服务器带来额外的负载。指数退避策略可以解决这个问题，它会随着重试次数的增加而增加延迟时间。

async function fetchWithExponentialBackoff(url, options = {}, retries = 3, delay = 1000) {
  try {
    const response = await fetch(url, options);
    
    // 处理状态码
    if (!response.ok && [429, 500, 502, 503, 504].includes(response.status)) {
      if (retries > 0) {
        // 指数退避：延迟时间翻倍
        await new Promise(resolve => setTimeout(resolve, delay));
        return fetchWithExponentialBackoff(url, options, retries - 1, delay * 2);
      }
    }
    
    return response;
  } catch (error) {
    if (retries > 0 && isRetryableError(error)) {
      await new Promise(resolve => setTimeout(resolve, delay));
      return fetchWithExponentialBackoff(url, options, retries - 1, delay * 2);
    }
    throw error;
  }
}

带随机抖动的退避策略

为了进一步避免重试风暴，我们可以在退避延迟中加入随机抖动。这意味着即使多个请求同时开始重试，它们的重试时间也会有所不同。

function getRandomDelay(baseDelay, retries) {
  // 指数退避 + 随机抖动
  const exponentialDelay = baseDelay * Math.pow(2, retries);
  const jitter = Math.random() * baseDelay * Math.pow(2, retries);
  return exponentialDelay + jitter;
}

async function fetchWithJitteredBackoff(url, options = {}, retries = 3, baseDelay = 1000) {
  try {
    const response = await fetch(url, options);
    
    if (!response.ok && [429, 500, 502, 503, 504].includes(response.status)) {
      if (retries > 0) {
        const delay = getRandomDelay(baseDelay, 3 - retries);
        await new Promise(resolve => setTimeout(resolve, delay));
        return fetchWithJitteredBackoff(url, options, retries - 1, baseDelay);
      }
    }
    
    return response;
  } catch (error) {
    if (retries > 0 && isRetryableError(error)) {
      const delay = getRandomDelay(baseDelay, 3 - retries);
      await new Promise(resolve => setTimeout(resolve, delay));
      return fetchWithJitteredBackoff(url, options, retries - 1, baseDelay);
    }
    throw error;
  }
}

基于HTTP状态码的智能重试

不同的HTTP状态码表示不同的错误情况，我们可以根据状态码调整重试策略。例如，对于429 Too Many Requests状态码，我们应该尊重服务器返回的Retry-After头信息。

async function fetchWithSmartRetry(url, options = {}, retries = 3) {
  try {
    const response = await fetch(url, options);
    
    if (!response.ok) {
      // 处理429 Too Many Requests
      if (response.status === 429 && retries > 0) {
        // 从响应头获取推荐的重试延迟
        const retryAfter = response.headers.get('Retry-After');
        const delay = retryAfter ? parseInt(retryAfter) * 1000 : getRandomDelay(1000, 3 - retries);
        
        await new Promise(resolve => setTimeout(resolve, delay));
        return fetchWithSmartRetry(url, options, retries - 1);
      }
      
      // 处理其他可重试状态码
      if ([500, 502, 503, 504].includes(response.status) && retries > 0) {
        const delay = getRandomDelay(1000, 3 - retries);
        await new Promise(resolve => setTimeout(resolve, delay));
        return fetchWithSmartRetry(url, options, retries - 1);
      }
    }
    
    return response;
  } catch (error) {
    if (retries > 0 && isRetryableError(error)) {
      const delay = getRandomDelay(1000, 3 - retries);
      await new Promise(resolve => setTimeout(resolve, delay));
      return fetchWithSmartRetry(url, options, retries - 1);
    }
    throw error;
  }
}

完整的重试工具函数

将以上策略整合起来，我们可以创建一个功能完善的重试工具函数：

const fetch = require('node-fetch');

// 从 src/errors/fetch-error.js 中获取错误类型定义
const RETRYABLE_ERROR_CODES = ['ETIMEDOUT', 'ECONNRESET', 'ECONNREFUSED', 'ENOTFOUND'];
const RETRYABLE_STATUS_CODES = [429, 500, 502, 503, 504];

function isRetryableError(error) {
  return error.type === 'system' && RETRYABLE_ERROR_CODES.includes(error.code);
}

function getRandomDelay(baseDelay, attempt) {
  const exponentialDelay = baseDelay * Math.pow(2, attempt);
  const jitter = Math.random() * baseDelay * Math.pow(2, attempt);
  return exponentialDelay + jitter;
}

async function fetchWithRetry(url, options = {}) {
  const { 
    retries = 3, 
    baseDelay = 1000,
    retryOn = {
      statusCodes: RETRYABLE_STATUS_CODES,
      errorCodes: RETRYABLE_ERROR_CODES
    }
  } = options.retry || {};
  
  // 移除重试选项，避免传递给fetch
  const fetchOptions = { ...options };
  delete fetchOptions.retry;
  
  let lastError;
  
  for (let attempt = 0; attempt <= retries; attempt++) {
    try {
      const response = await fetch(url, fetchOptions);
      
      if (response.ok) {
        return response;
      }
      
      if (retryOn.statusCodes.includes(response.status) && attempt < retries) {
        lastError = new Error(`HTTP error: ${response.status} ${response.statusText}`);
        lastError.status = response.status;
        
        // 处理429状态码的Retry-After头
        let delay = getRandomDelay(baseDelay, attempt);
        if (response.status === 429) {
          const retryAfter = response.headers.get('Retry-After');
          if (retryAfter) {
            delay = parseInt(retryAfter) * 1000;
          }
        }
        
        await new Promise(resolve => setTimeout(resolve, delay));
        continue;
      }
      
      // 不重试的状态码
      throw new Error(`HTTP error: ${response.status} ${response.statusText}`);
      
    } catch (error) {
      if (isRetryableError(error) && attempt < retries) {
        lastError = error;
        const delay = getRandomDelay(baseDelay, attempt);
        await new Promise(resolve => setTimeout(resolve, delay));
        continue;
      }
      
      // 达到最大重试次数或遇到不可重试的错误
      throw lastError || error;
    }
  }
  
  throw lastError || new Error('Max retries exceeded');
}

module.exports = fetchWithRetry;

重试策略最佳实践

根据docs/v3-LIMITS.md和docs/ERROR-HANDLING.md中的建议，实现重试策略时应遵循以下最佳实践：

不要对所有错误都重试：只有对暂时性错误才应该重试，如网络错误、503服务不可用等。对于400 Bad Request等客户端错误，重试通常是无效的。
设置合理的重试次数上限：通常3-5次重试就足够了，过多的重试可能会加重系统负担。
使用指数退避策略：随着重试次数增加，延迟时间应该指数增长，减少对服务器的压力。
添加随机抖动：在退避延迟中加入随机成分，避免重试风暴。
尊重Retry-After头：当服务器返回429 Too Many Requests状态码时，应尊重Retry-After头中指定的重试延迟。
避免对非幂等操作重试：POST请求等非幂等操作可能会导致副作用，重试前需要特别小心。

总结

实现请求重试是提高分布式系统可靠性的重要手段。通过本文介绍的方法，你可以基于node-fetch实现各种重试策略，从简单的固定次数重试到复杂的指数退避加随机抖动策略。

在实际应用中，你需要根据具体的业务场景和系统特性来选择合适的重试策略。记住，没有放之四海而皆准的重试策略，最好的策略是根据实际情况不断调整和优化。

最后，建议你参考src/index.js中的fetch实现和docs/ERROR-HANDLING.md中的错误处理指南，深入理解node-fetch的工作原理，以便更好地设计和实现适合你项目的重试策略。

【免费下载链接】node-fetch A light-weight module that brings the Fetch API to Node.js 项目地址: https://gitcode.com/gh_mirrors/no/node-fetch

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考