应用场景:QA对话系统|检索系统
任务: 希望能够在数据库中找到与用户问题相似的【句子对|词语】,然后把答案返回给用户。这篇就是要解决这个问题的。
方法: 下面提供两个方法,一个是基于google 开源的bert,另一个是基于pytorch-transformer
1. BERT 语义相似度
BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。
文章简介引用自: http://mantchs.com/2020/03/14/Introduction-NLP/bert_service/
关于 BERT 的原理知识请访问: http://mantchs.com/2019/09/28/NLP/BERT/
下面介绍一个封装好的 BERT 工具,利用该工具能够快速的得到词向量表示。该工具的名称叫做: bert-as-se