深入解析scrape-it：一个简单易用的网页抓取工具-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00118/article/details/148549607

深入解析scrape-it：一个简单易用的网页抓取工具

scrape-it 🔮 A Node.js scraper for humans. 项目地址: https://gitcode.com/gh_mirrors/sc/scrape-it

什么是scrape-it

scrape-it是一个专为开发者设计的网页抓取工具库，它基于Cheerio库构建，提供了简洁直观的API来从网页中提取结构化数据。这个工具特别适合那些需要快速从网页中抓取数据但又不想处理复杂底层细节的开发者。

核心API详解

scrapeIt方法

scrapeIt是库的核心方法，用于从指定URL抓取并解析数据。

参数说明：

url：可以是字符串形式的URL，也可以是包含请求配置的对象
opts：配置抓取行为的选项对象
cb：可选的回调函数，如果未提供则返回Promise

返回值：返回一个Promise，解析后包含：

data：抓取到的结构化数据
$：Cheerio函数，可用于进一步操作DOM
response：HTTP响应对象
body：原始HTML字符串

使用示例：

const scrapeIt = require("scrape-it");

// 使用Promise
scrapeIt("https://example.com", {
    title: "h1",
    desc: "p.desc"
}).then(({ data }) => {
    console.log(data);
});

// 使用回调
scrapeIt("https://example.com", {
    title: "h1"
}, (err, { data }) => {
    if (err) throw err;
    console.log(data);
});

scrapeHTML方法

scrapeHTML是另一个重要方法，用于从已有的Cheerio对象中提取数据。

参数说明：

$：Cheerio对象，包含已加载的HTML内容
opts：配置抓取行为的选项对象

配置选项详解

scrape-it的强大之处在于其灵活的配置选项，下面详细介绍各种配置方式。

基本数据抓取

最简单的形式是直接指定选择器和字段名的映射：

{
    title: "h1",  // 抓取h1标签的文本
    avatar: {
        selector: "img.profile",  // 选择器
        attr: "src"  // 获取src属性而非文本
    }
}

列表数据抓取

对于列表型数据，需要使用listItem配置：

{
    articles: {  // 输出字段名
        listItem: ".article",  // 列表项选择器
        data: {  // 每个列表项中要抓取的字段
            title: "h2",
            date: {
                selector: ".date",
                convert: x => new Date(x)  // 对抓取的值进行转换
            }
        }
    }
}

高级选项

scrape-it提供了多种高级选项来处理复杂的抓取场景：

值转换：通过convert函数对抓取的值进行处理
获取HTML：设置how: "html"可以获取元素的HTML而非文本
属性获取：通过attr指定要获取的属性名
元素定位：
- closest：获取最近的指定祖先元素
- eq：获取匹配的第n个元素
- texteq：获取第n个直接文本子节点
嵌套列表：在data中可再次使用listItem实现嵌套列表抓取

实际应用示例

示例1：抓取博客文章

{
    posts: {
        listItem: ".post",
        data: {
            title: "h2",
            excerpt: ".excerpt",
            author: {
                selector: ".author",
                attr: "data-user"
            },
            publishDate: {
                selector: ".date",
                convert: x => x.trim()
            },
            tags: {
                listItem: ".tags li"
            }
        }
    }
}

示例2：抓取产品信息

{
    productName: "#product-title",
    price: {
        selector: ".price",
        convert: x => parseFloat(x.replace("$", ""))
    },
    features: {
        listItem: ".features li",
        data: {
            name: "span",
            icon: {
                selector: "img",
                attr: "src"
            }
        }
    }
}