使用nodejs和python脚本实现爬虫程序,并将抓取数据生成词云图看板

  1. 创建项目,初始化目录结构。
  • 创建项目名称为pachong。
  • 运行 npm init -y 初始化项目。
  • 修改package.json文件中的type属性为module。
  • 安装 npm 包:npm install puppeteer #爬虫 | 自动化UI测试
  • 首先确保你的电脑上有python3环境
  • 安装两个python包 pip install wordcloud #生成词云图 pip install jieba #中文分词 (⚠️注意:如果安装的是python3,你的python包管理工具是pip3而不再是pip)

在这里插入图片描述

  1. 创建src目录。
  • 新建两个文件分别用于书写nodeJs代码和python代码。
  • 在网上找一个自己喜欢的字体ttf文件,准备让生成的词图云使用。
    在这里插入图片描述
  1. 介绍我们要爬取的内容
  • 我们要爬取的是掘金首页的导航栏 -> 前端模块 -> 推荐
  • 爬取前端(或者其他指定模块)推荐模块里所有文章的标题,并且依靠python脚本提供的分词和词图云的能力最终生成看板。
    在这里插入图片描述
  1. source code

index.js

import puppeteer from "puppeteer"; // puppeteer 的每一个操作都是异步的
import {
    spawn } from "node:child_process";
const keywords = process.argv[2]; // 获取在终端执行 node index.js keywords 中的 keywords

// 1. 创建一个浏览器实例
const browser = await puppeteer.launch({
   
  headless: false, // 关闭无头模式 (什么是无头模式:无需打开浏览器就可以直接爬取,我们做demo还是想看到效果因此暂时关掉)
});

// 2. 创建一个页面实例
const page = await browser.newPage();

// 3. 跳转页面
await page.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WongLeer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值