AUTOCRAWLER : A Progressive Understanding Web Agent for WebCrawler Generation

原创

已于 2024-05-02 14:22:55 修改 · 569 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-05-02 13:33:23 首次发布

本文提出一种新的网络爬虫生成方法AUTOCRAWLER，结合LLMs与爬虫，通过HTML层次结构的逐步理解，实现自顶向下和后退操作，有效应对复杂网络环境。实验结果显示其在爬虫任务中表现出色，提升了效率和可扩展性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AUTOCRAWLER：用于生成 WebCrawler 的渐进式理解 Web 代理

Fudan University;Alibaba Holding-Aicheng Technology-Enterprise

Abstract：

网络自动化是一项重要技术，它通过自动化常见的网络操作来完成复杂的网络任务，提高效率并减少手动干预。传统的网络自动化方法如wrappers，在适应性和可扩展性上有局限性，而基于大型语言模型（LLMs）的生成式代理在开放世界的环境中表现不佳。本文提出了一种针对垂直信息网页的爬虫生成任务，介绍了一种结合LLMs与爬虫的新范式，以提高爬虫应对多样化和不断变化的网络环境的效率。作者提出了AUTOCRAWLER，这是一种利用HTML的层次结构进行逐步理解的两阶段框架。通过自顶向下和后退操作，AUTOCRAWLER可以从错误的操作中学习并不断修剪HTML，以更好地生成操作。作者通过多种LLMs进行了全面实验，证明了框架的有效性。

1 Introduction：

网络自动化通过编程与基于Web的应用程序或网站交互，以执行通常需要人工干预的任务。传统的网络自动化方法主要依赖于wrappers，这些wrappers对网站或网页具有特定的适应性。大型语言模型（LLMs）为生成式代理提供了计划、推理和反思等高级功能，但在处理开放世界任务时，仍存在性能差和可重用性低的问题。
主要贡献：
1. 提出了一种新的web爬虫生成任务，并对其进行分析。
2. 引入了AUTOCRAWLER，这是一种具有渐进理解能力的两阶段框架。
3. 实验结果表明，AUTOCRAWLER在爬虫生成任务中表现出色。

2 Preliminaries预备知识：

2.1 Task Formulation：爬虫生成任务是生成执行动作序列A的过程，目标是在给定的网页集合中提取目标

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄6年

224
原创

700
点赞

561
收藏

563
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: ICSE 2024 PaperList1

下一篇：: Improving Diffusion Models for AuthenticVirtual Try-on in the Wild

最新评论

【SANER2024】调查和检测 PyTorch 程序中的静默错误
shuffermo: 作者路过，感谢您能注意到这篇论文，写这篇论文主要是因为我在学习AI初期经常遇到缺陷难以定位的问题，其中不报错的那种尤为难找，所以就探索用传统白盒的方法来解决这个问题。论文中的方法尚属初期，目前正在努力让这个方法变得更加实用。如果您有任何更新的想法还请不令赐教（PS: Silent bugs个人认为发一成隐性缺陷更为合适，因为其并不会造成训练崩溃，所以不能称之为“错误”）
大海捞针：用代码聚类寻找恶意 PyPI 包（ASE 2023）
Zbl。: 请问有源码吗？git上只有数据集呢
sys模块
优快云-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
力扣739. 每日温度
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Mac如何修改终端用户名
微毂: 输入whoami 显示了旧的名字，这个在哪里改，hostname,computerName,LocalHostName都改了，就是输入whoami 还是旧的名字

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。