reStructured Pre-training
论文中有一句话说得很好,这是prompted pretraining的过程,模型在pretrained的阶段,就像是在学习下游任务。
任务以生成任务的范式建模为统一的形式。
非常值得一阅。非常。
前言
整个IE经过的发展时期:
是不是大约每10年经过一轮变更?
不对,变更的时间在不断的缩减。
传统机器学习的时代在2011年左右接近尾声,之后,深度学习时代,18年,bert出现,开始转入模型结构时代,21年,提示学习开始崭露头角,22年,回归数据,数据结构化再次被关注。
paperweekly的讲解:https://blog.youkuaiyun.com/qq_27590277/article/details/125494870
论文中的原话是:数据的作用将被再次强调,模型的预训练和下游任务的微调被看作是一个数据存储和访问的过程。
技术的迭代总是沿着这样的方向发展,即系统开发者可以通过做更少的事情来设计一个更好和更普遍的系统。
在克服了一些工程上的挑战后,在由各种有价值的信息组成的重组数据上预训练模型,而不是原始数据。
1. 信号的定义
信号是有用的信息,可以为特定任务的知识学习服务,并指导模型进行学习优化。作为结构化学习的第一步,我们首先需要弄清楚世界上自然存在的、收集到的、可用的信号是什么。
2. 数据矿识别 在现实世界中,我们可以获得各种数据源,如新闻网站、维基百科、知识库,甚至是在线视频。数据矿是指富含不同类型信号的数据集合。一旦信号被定义,搜索合适的数据矿就有望实现(§3.2)。
3. 信号提取
如何从数据矿中有效地提取信号对重组学习也很重要。 我们将在第3.3节中详细介绍我们如何从信号源中挖掘信号。
4. 信号重组
这个过程关心的是如何用统一的格式表示所有类型的信号,缩小数据存储和数据检索之间的差距。我们将在第3.5节中详细介绍。
5. 预训练和调整
这个过程关心的是什么是理想的预训练结构,以便所有重组的信号可以有效地用于模型预训练。我们将在第3.6节中详细介绍。
标红的是我认为比较重要的项目。
信息提取过程涉及到了一些数据挖掘、数据重构、数据清洗的过程。
信息重组关键在于“怎么把信号尽可能的统一?”
文中对于信号的分类:按照模态、功能、寄生环境分为如下几大类:
信号和下游任务的关系:
总结了42个任务。
总结类、分类、时序判断…
数据格式采用的元组的形式。(text,summary)/(text,title) / (answer,title) / (review,sentiment) / (text,subject,property,object)
提示学习模板
- multiple-choice format
- generation format
I like this movie. Is this text ‘‘positive" or
‘‘negative"? while a generation format prompt could be the following: I like this movie. What’s
the sentiment of the previous text?. We use two special markers: “TEXT:” and “QUERY:” to
separate the general context and the intended task to be completed
评估和评测部分未介绍。