AUTOCRAWLER : A Progressive Understanding Web Agent for WebCrawler Generation

本文提出一种新的网络爬虫生成方法AUTOCRAWLER,结合LLMs与爬虫,通过HTML层次结构的逐步理解,实现自顶向下和后退操作,有效应对复杂网络环境。实验结果显示其在爬虫任务中表现出色,提升了效率和可扩展性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

AUTOCRAWLER:用于生成 WebCrawler 的渐进式理解 Web 代理

Fudan University;Alibaba Holding-Aicheng Technology-Enterprise

Abstract

网络自动化是一项重要技术,它通过自动化常见的网络操作来完成复杂的网络任务,提高效率并减少手动干预。传统的网络自动化方法如wrappers,在适应性和可扩展性上有局限性,而基于大型语言模型(LLMs)的生成式代理在开放世界的环境中表现不佳。本文提出了一种针对垂直信息网页的爬虫生成任务,介绍了一种结合LLMs与爬虫的新范式,以提高爬虫应对多样化和不断变化的网络环境的效率。作者提出了AUTOCRAWLER,这是一种利用HTML的层次结构进行逐步理解的两阶段框架。通过自顶向下和后退操作,AUTOCRAWLER可以从错误的操作中学习并不断修剪HTML,以更好地生成操作。作者通过多种LLMs进行了全面实验,证明了框架的有效性。

1 Introduction

  • 网络自动化通过编程与基于Web的应用程序或网站交互,以执行通常需要人工干预的任务。传统的网络自动化方法主要依赖于wrappers,这些wrappers对网站或网页具有特定的适应性。大型语言模型(LLMs)为生成式代理提供了计划、推理和反思等高级功能,但在处理开放世界任务时,仍存在性能差和可重用性低的问题。
  • 主要贡献
    1. 提出了一种新的web爬虫生成任务,并对其进行分析。
    2. 引入了AUTOCRAWLER,这是一种具有渐进理解能力的两阶段框架。
    3. 实验结果表明,AUTOCRAWLER在爬虫生成任务中表现出色。

2 Preliminaries预备知识

  • 2.1 Task Formulation:爬虫生成任务是生成执行动作序列A的过程,目标是在给定的网页集合中提取目标
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值