作者:禅与计算机程序设计艺术
1.简介
自然语言处理领域的任务之一就是给输入文本生成相应的高维向量表示(embedding)。一般来说,最简单的代表句子的embedding方法就是传统词袋模型(bag of words model)和TF-IDF模型(term frequency inverse document frequency),后者可以作为一种初步的baseline而对比实验。然而,基于传统词袋模型或TF-IDF模型进行sentence embedding的方法已经被证明是不合适且具有一定的局限性。最近几年,神经网络和机器学习在NLP领域取得了重大进展,越来越多的研究人员试图开发新的baseline方法来提升NLP任务的效果。在本文中,我们将展示Zhang and Gardner团队提出的Sentence Transformers,这是目前最简单但也是最具竞争力的baseline方法。通过这一方法,我们可以很容易地训练出能够产生具有可解释性的高维空间中的点,而这些点可以视作文本的语义表示。我们还将展示其性能如何优于其他一些更复杂的baseline方法,如BERT、ELMo、GPT-2等。
本文的作者是香港浸会大学计算机科学系的教授陈志武和博士陈向群,他们目前主要从事自然语言处理和信息检索领域的研究工作。文章将由两位作者共同完成,这两位都是比较知名的nlp/ir领域的学者。两位作者均来自世界顶级的NLP组织或公司,如Google、Facebook、微软、IBM等。因此,文章中会经常出现他们的研究成果。另外,为了让文章更加易读易懂,我们也会使用一些参考文献的摘要来代替完整引用,并略去一些重复的内容。
由于篇幅限制,本文不会提供太多的代码实现细节。如果需要深入理解代码细节,请参考