使用nodejs和python脚本实现爬虫程序，并将抓取数据生成词云图看板

最新推荐文章于 2024-10-28 13:44:12 发布

WongLeer

最新推荐文章于 2024-10-28 13:44:12 发布

阅读量410

点赞数 7

文章标签： python 爬虫开发语言

本文链接：https://blog.youkuaiyun.com/weixin_51431277/article/details/138241004

版权

创建项目名称为pachong。
运行 npm init -y 初始化项目。
修改package.json文件中的type属性为module。
安装 npm 包：npm install puppeteer #爬虫 | 自动化UI测试
首先确保你的电脑上有python3环境
安装两个python包 pip install wordcloud #生成词云图 pip install jieba #中文分词 (⚠️注意：如果安装的是python3，你的python包管理工具是pip3而不再是pip)

在这里插入图片描述

新建两个文件分别用于书写nodeJs代码和python代码。
在网上找一个自己喜欢的字体ttf文件，准备让生成的词图云使用。

介绍我们要爬取的内容

我们要爬取的是掘金首页的导航栏 -> 前端模块 -> 推荐
爬取前端（或者其他指定模块）推荐模块里所有文章的标题，并且依靠python脚本提供的分词和词图云的能力最终生成看板。

source code

index.js

import puppeteer from "puppeteer"; // puppeteer 的每一个操作都是异步的
import {
    spawn } from "node:child_process";
const keywords = process.argv[2]; // 获取在终端执行 node index.js keywords 中的 keywords

// 1. 创建一个浏览器实例
const browser = await puppeteer.launch({
   
  headless: false, // 关闭无头模式 （什么是无头模式：无需打开浏览器就可以直接爬取，我们做demo还是想看到效果因此暂时关掉）
});

// 2. 创建一个页面实例
const page = await browser.newPage();

// 3. 跳转页面
await page.