自然语言处理应用项目解析
1. 中文影视对话语义消歧
为评估中文影视对话语义消歧工作的有效性,并验证算法在特定领域的优越性,研究设置了对比实验,比较不同方法在对话数据集上的准确率指标。
- 对比方法选择 :
1. 使用独热编码对文本编码,基于构建的知识图谱和上下文相似度的语义消歧算法,直接根据相似度对候选消歧词排序。
2. 使用Word2Vec对文本编码,基于知识图谱和上下文相似度的语义消歧算法。
3. 使用Word2Vec对文本编码,基于知识图谱和语义特征的语义消歧算法,根据计算的语义特征分数对候选消歧词排序。
4. 使用BERT预训练语言模型对文本编码,基于知识图谱和上下文相似度的语义消歧算法。
5. 使用BERT对文本编码,基于知识图谱和语义特征的语义消歧算法,这是本研究的重点。
- 知识图谱构建结果 :基于训练集构建语义消歧知识图谱,共获得4230个歧义单词、9689个消歧词和999,125个上下文场景。平均一个歧义单词与2.29个消歧词建立关系,一个歧义单词对应236.20个上下文场景。该算法支持大量歧义单词的语义消歧,比之前仅支持10量级语义消歧的算法更适合中文影视剧本的语义消歧工作,且具有一定可扩展性,可应用于其他中文文本或其他类型短文本的语义消歧。
2. 语义消歧系统操作步骤
- 数据加载 :Web服务启动时在后端执行,自动读取语义消歧知识图谱和BERT预训练语言模型。
- 获取文本 :将需要语义消歧的文本以每行
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



