Multi30k数据集

Multi30k数据集

【下载地址】Multi30k数据集 Multi30k数据集是一个专为机器翻译和视觉描述生成任务而设计的多模态数据集,包含英德两种语言的平行语料库及对应的图像资源。数据集提供了丰富的文本和视觉数据,支持从文本翻译到图像描述生成等多种研究场景。通过集成最新的subword-nmt和Moses预处理工具,确保数据处理的一致性和高效性。数据集还包含Flickr30k的原始图像及预提取的视觉特征,方便用户直接使用。无论是模型训练还是测试集评估,Multi30k都是一个功能全面、易于使用的资源,助力多模态研究领域的前沿探索。 【下载地址】Multi30k数据集 项目地址: https://gitcode.com/Universal-Tool/7c37f

简介

本仓库提供Multi30k数据集,这是一组用于机器翻译和视觉描述生成任务的多模态数据集。数据集包含英德两种语言的平行语料库,以及与文本对应的图像。

数据内容

  • 数据文件:包含英德两种语言的平行语料库,以及对应的图像描述。
  • subword-nmt:作为GIT子模块提供的最新快照(2017年12月),用于减少用户之间的处理差异。
  • Moses预处理脚本:最新快照,用于数据预处理。

克隆仓库

为了正确获取所有内容,请使用以下命令克隆存储库:

git clone --recursive https://github.com/multi30k/dataset.git multi30k-dataset

图像资源

  • 视觉特征:可以预先提取的视觉功能,也可以在Flickr30k的原始图像中找到。
  • 图像下载:可以从资源中下载test_2017_flickr和test_2018_flickr图像。

文件结构

  • task1:下的原始文件和标记文件,这些文件是使用预处理脚本生成的。

测试集

  • Multi30K 2018测试集:您可以使用该测试集在2018年测试集上评估模型,并参与正在进行的竞赛。

统计数据

  • train (en):29

注意事项

  • 请确保在克隆仓库时使用--recursive标志,以获取所有子模块。
  • 使用数据集时,请遵守相应的使用条款和版权规定。

【下载地址】Multi30k数据集 Multi30k数据集是一个专为机器翻译和视觉描述生成任务而设计的多模态数据集,包含英德两种语言的平行语料库及对应的图像资源。数据集提供了丰富的文本和视觉数据,支持从文本翻译到图像描述生成等多种研究场景。通过集成最新的subword-nmt和Moses预处理工具,确保数据处理的一致性和高效性。数据集还包含Flickr30k的原始图像及预提取的视觉特征,方便用户直接使用。无论是模型训练还是测试集评估,Multi30k都是一个功能全面、易于使用的资源,助力多模态研究领域的前沿探索。 【下载地址】Multi30k数据集 项目地址: https://gitcode.com/Universal-Tool/7c37f

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

乔钥曼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值