node.js使用代理爬虫：高效数据抓取的实战技巧

原创已于 2025-02-11 15:56:25 修改 · 2.4k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#node.js #爬虫

于 2025-02-11 15:53:46 首次发布

在使用 Node.js 进行网络爬虫时，代理 IP 是必不可少的工具。通过代理，我们可以隐藏真实 IP，提高爬取效率，并避免被封禁。然而，很多开发者在配置代理时可能会遇到各种问题，比如代理连接失败、IP 频繁失效、请求速度慢等。

本文将详细介绍如何在 Node.js 中使用代理进行爬虫，并探讨如何优化代理的使用，以确保数据采集稳定高效。

为什么需要代理 IP？

直接使用本地 IP 进行爬取可能会遇到以下问题：

IP 被封禁： 许多网站会检测短时间内的高频访问，并对该 IP 进行封锁。
提高抓取效率： 通过代理池可以同时使用多个 IP 并发请求，加快数据采集速度。
突破反爬机制： 许多网站会通过检测 IP 来识别爬虫，而代理 IP 可以帮助避免这些检测。

因此，合理地配置和使用代理，是实现高效网页爬取的关键。

在 Node.js 中如何设置代理？

在 Node.js 中，我们可以使用不同的 HTTP 库（如 `axios`、`request-promise`、`puppeteer` 等）来进行网络请求，并通过配置代理服务器来隐藏真实 IP。下面介绍几种常见的代理配置方法。

1. 使用 axios 进行代理请求

`axios` 是一个流行的 HTTP 请求库，我们可以很方便地为其添加代理设置。

const axios = require('axios');

const proxy = {
  host: 'your_proxy_host',
  port: 'your_proxy_port',
  auth: {
    username: 'your_username',
    password: 'your_password'
  }
};

axios.get('https://example.com', { 
  proxy 
})
.then(response => {
  console.log(response.data);
})
.catch(error => {
  console.error('请求失败:', error.message);
});

如果你的代理不需要身份验证，可以去掉 `auth` 字段。

2. 使用 request-promise 设置代理

`request-promise` 是另一个常用的 HTTP 请求库，它支持代理设置：

const request = require('request-promise');

const options = {
  uri: 'https://example.com',
  proxy: 'http://your_proxy_host:your_proxy_port',
  headers: {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 …'
  }
};

request(options)
  .then(response => {
    console.log(response);
  })
  .catch(error => {
    console.error('请求失败:', error.message);
  });

3. 使用 Puppeteer 设置代理

`Puppeteer` 是一个用于控制 Chrome 浏览器的库，适用于需要渲染 JavaScript 的网页。在 Puppeteer 中，我们可以通过 `--proxy-server` 参数设置代理：

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({
    headless: true,
    args: ['--proxy-server=http://your_proxy_host:your_proxy_port']
  });

  const page = await browser.newPage();
  await page.goto('https://example.com', { waitUntil: 'load' });

  const content = await page.content();
  console.log(content);

  await browser.close();
})();

4. 使用 Socks5 代理

如果你的代理是 SOCKS5 类型，可以使用 `socks-proxy-agent` 库来配置：

const axios = require('axios');
const SocksProxyAgent = require('socks-proxy-agent');

const agent = new SocksProxyAgent('socks5://your_proxy_host:your_proxy_port');

axios.get('https://example.com', { 
  httpAgent: agent,
  httpsAgent: agent
})
.then(response => {
  console.log(response.data);
})
.catch(error => {
  console.error('请求失败:', error.message);
});

如何优化代理使用？

1. 使用代理池进行轮换

如果一个 IP 长时间爬取同一网站，很容易被封。因此，我们需要维护一个代理 IP 池，并在每次请求时随机选取一个可用代理。

const proxies = [
  'http://proxy1:port',
  'http://proxy2:port',
  'http://proxy3:port'
];

function getRandomProxy() {
  return proxies[Math.floor(Math.random() * proxies.length)];
}

const options = {
  uri: 'https://example.com',
  proxy: getRandomProxy(),
};

request(options)
  .then(response => {
    console.log(response);
  })
  .catch(error => {
    console.error('请求失败:', error.message);
  });

2. 检测无效代理并移除

部分代理可能会失效，因此我们需要定期检测其可用性，并移除无效 IP。

const isProxyValid = async (proxy) => {
  try {
    const response = await axios.get('https://example.com', { proxy });
    return response.status === 200;
  } catch (error) {
    return false;
  }
};

// 定期检测并更新代理池
setInterval(async () => {
  for (let i = proxies.length - 1; i >= 0; i--) {
    const isValid = await isProxyValid(proxies[i]);
    if (!isValid) {
      console.log(`移除无效代理: ${proxies[i]}`);
      proxies.splice(i, 1);
    }
  }
}, 60000); // 每分钟检查一次

3. 控制请求频率，避免触发反爬机制

如果短时间内发送大量请求，即使使用了代理，也容易触发目标网站的反爬机制。因此，我们可以在每次请求之间增加随机间隔。

const sleep = (ms) => new Promise(resolve => setTimeout(resolve, ms));

const fetchData = async () => {
  for (let i = 0; i < urls.length; i++) {
    try {
      const response = await axios.get(urls[i], { proxy: getRandomProxy() });
      console.log(response.data);
      await sleep(Math.random() * (5000 - 2000) + 2000); // 随机延迟2-5秒
    } catch (error) {
      console.error('请求失败:', error.message);
    }
  }
};

4. 使用 User-Agent 和 Headers 模拟真实用户

许多网站会检测 HTTP 请求头中的 `User-Agent` 来判断访问者是否为爬虫，因此我们可以通过设置不同的 `User-Agent` 来伪装成普通用户。

const headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...',
};

axios.get('https://example.com', { headers, proxy: getRandomProxy() })
.then(response => console.log(response.data))
.catch(error => console.error('请求失败:', error.message));