MAVE:多源属性值提取的产品数据集
项目介绍
MAVE 是一个面向多源属性值提取研究的大型产品数据集。该数据集包含来自 2.2 百万份清洗后的亚马逊产品档案的 1257 个独特类别的 300 万个属性值注释。MAVE 为产品属性提取领域提供了一个丰富、多源、多样化的研究资源。
项目技术分析
MAVE 数据集的核心是一个 JSON Lines 格式的文件,其中每行是一个包含产品信息和多个属性的 JSON 对象。每个 JSON 对象都包括产品 ID、类别、文本段落数据以及属性信息。产品 ID 实际上是 All_Amazon_Meta.json
文件中的 ASIN 编号,该文件属于亚马逊评论数据集(2018)。
数据集中的每个 JSON 对象都包含以下结构:
{
"id": <product id>,
"category": <category name>,
"paragraphs": [
{
"text": <paragraph text>,
"source": <paragraph source>
},
...
],
"attributes": [
{
"key": <attribute name>,
"evidences": [
{
"value": <attribute value>,
"pid": <the paragraph id where the attribute value come from>,
"begin": <the begin character level index of the attribute value in the paragraph>,
"end": <the end character level index (exclusive) of the attribute value in the paragraph>
},
...
]
},
...
]
}
在这个结构中,attributes
字段包含了产品属性,每个属性都有关联的 evidences
,这提供了属性值的证据,包括其在段落中的位置信息。
项目技术应用场景
MAVE 数据集的应用场景主要集中在产品属性提取领域,特别是在自然语言处理(NLP)和机器学习领域。以下是一些具体的应用场景:
- 属性值提取: 从产品描述中自动识别和提取属性值,如颜色、尺寸、材料等。
- 数据增强: 利用 MAVE 数据集对现有数据集进行增强,提高模型的泛化能力。
- 模型训练: 作为训练数据,用于训练和评估多源属性值提取模型。
- 特征工程: 在构建推荐系统或产品搜索引擎时,使用提取的属性作为特征。
项目特点
MAVE 数据集具有以下显著特点:
- 规模庞大: 包含超过 300 万个属性值注释,覆盖 1257 个独特类别。
- 多源数据: 数据来源于亚马逊产品档案,经过清洗和整合,保证了数据的质量和多样性。
- 结构化: 数据以 JSON Lines 格式存储,方便处理和分析。
- 证据信息: 提供了属性值在文本中的位置信息,有助于模型的准确性和解释性。
- 正负样本: 除了正样本外,还提供了负样本,有助于模型学习哪些属性值是不存在的。
MAVE 数据集的发布为产品属性提取领域的研究提供了一个宝贵的资源,有助于推动相关技术的发展和应用。通过其高质量的注释和结构化数据,研究者和开发者可以更有效地进行模型训练和评估,从而提高产品信息处理的自动化和智能化水平。
在遵循 SEO 收录规则的条件下,本文详细介绍了 MAVE 数据集的核心功能、项目介绍、技术分析、应用场景和特点,旨在吸引用户关注和使用这一开源项目。通过深入了解 MAVE 数据集的优势和应用潜力,用户将能够更好地利用该数据集进行研究和开发工作。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考