LLM Scraper 教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00309/article/details/141118718

LLM Scraper 教程

llm-scraperTurn any webpage into structured data using LLMs项目地址:https://gitcode.com/gh_mirrors/ll/llm-scraper

1. 项目介绍

LLM Scraper 是一个基于TypeScript的库，它利用大规模语言模型（LLMs）来从任何网页中提取结构化数据。此项目支持Local（如Ollama GGUF）、OpenAI和Vercel AI SDK等提供者，并通过Zod定义了数据模式以确保类型安全性。

2. 项目快速启动

安装依赖

首先，确保已安装Node.js环境。然后，在你的项目目录中运行以下命令来安装 llm-scraper：

npm init -y
npm install llm-scraper playwright @ai-sdk/openai

运行示例代码

以下是一个简单的示例，展示如何使用LLM Scraper从Hacker News获取顶级故事：

import { chromium } from 'playwright';
import * as z from 'zod';
import * as openai from '@ai-sdk/openai';
import { LLMScraper } from 'llm-scraper';

// 初始化LLM提供商
const llm = openai.chat('gpt-4o');

// 创建LLMScraper实例
const scraper = new LLMScraper(llm);

(async () => {
  // 启动浏览器
  const browser = await chromium.launch();
  const page = await browser.newPage();

  // 访问Hacker News
  await page.goto('https://news.ycombinator.com');

  // 定义要提取的数据模式
  const storySchema = z.object({
    title: z.string(),
    url: z.string().url(),
    points: z.number(),
    author: z.string(),
  });

  // 提取数据
  const topStories = await scraper.scrape(page, storySchema, '#hn-item', 10);

  console.log(topStories);

  // 关闭浏览器
  await browser.close();
})();

这段代码将打开一个新的Chromium浏览器窗口，导航到Hacker News首页，然后提取前10个故事的相关信息。