15、网页数据API自动创建与高效Web应用迁移技术

网页数据API自动创建与高效Web应用迁移技术

1. 网页数据API自动创建实验

1.1 数据集

由于缺乏公开的分页识别数据集,我们手动从亚马逊全球顶级网站收集了训练数据。具体操作如下:
- 利用Selector Gadget工具,定位包含“PAGE”和“NEXT”文本内容的锚标签,以此加速标注过程。
- 数据集涵盖了不包含分页链接的页面。

我们从美国顶级网站收集了164个训练页面和49个测试页面。此外,还从德国、俄罗斯、中国、日本和韩国的热门全球网站收集了132个测试页面,用于零样本实验。各语言数据集的统计信息如下表所示:
| 数据集类型 | 页面数 | PAGE标签比例 | NEXT标签比例 | 无标签比例 | 每页PAGE&NEXT标签数 | 每页节点数 |
| — | — | — | — | — | — | — |
| EN Dev | 164 | 65.20% | 59.75% | 26.82% | 10.0 | 242.7 |
| EN Test | 49 | 34.69% | 46.94% | 53.06% | 7.4 | 459.7 |
| DE Test | 20 | 60.00% | 55.00% | 30.00% | 11.6 | 237.6 |
| RU Test | 21 | 38.10% | 33.33% | 61.90% | 4.6 | 484.4 |
| ZH Test | 44 | 54.55% | 45.45% | 45.45% | 11.5 | 180.3 |
| JA Test | 23 | 26.09% | 34.78% | 3

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值