23、自然语言处理与无监督学习技术综述

最新推荐文章于 2025-12-07 21:06:41 发布

root9

最新推荐文章于 2025-12-07 21:06:41 发布

阅读量47

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签：自然语言处理变压器模型无监督学习

本文链接：https://blog.youkuaiyun.com/root9/article/details/151034721

深度学习实战指南专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理与无监督学习技术综述

1. 自然语言处理相关数据集与工具

1.1 RACE数据集

RACE（The ReAding Comprehension dataset from Examinations）是一个面向12 - 18岁中国学生的英语考试机器阅读理解数据集，包含27,933篇文章和97,867个问题。它分为两个子集：RACE - M（来自中学考试，有28,293个问题）和RACE - H（来自高中考试，有69,574个问题）。每个问题有四个候选答案，其中一个正确。与大多数机器阅读理解数据集不同，RACE的问题由领域专家专门为测试人类阅读技能而设计，而非通过启发式方法或众包生成。该数据集可在https://www.cs.cmu.edu/~glai1/data/race/获取。

1.2 NLP - progress

NLP - progress是一个用于跟踪自然语言处理（NLP）进展的仓库，它涵盖了常见NLP任务的数据集和当前最先进的模型。该网站旨在跟踪NLP的进展，并概述常见NLP任务及其对应数据集的最先进模型，涉及传统和核心NLP任务，如依存句法分析和词性标注，以及较新的任务，如阅读理解和自然语言推理。若需为任务寻找优质指标，可从http://nlpprogress.com/开始。