37、自然语言处理应用项目解析

自然语言处理应用项目解析

1. 中文影视对话语义消歧

为评估中文影视对话语义消歧工作的有效性,并验证算法在特定领域的优越性,研究设置了对比实验,比较不同方法在对话数据集上的准确率指标。
- 对比方法选择
1. 使用独热编码对文本编码,基于构建的知识图谱和上下文相似度的语义消歧算法,直接根据相似度对候选消歧词排序。
2. 使用Word2Vec对文本编码,基于知识图谱和上下文相似度的语义消歧算法。
3. 使用Word2Vec对文本编码,基于知识图谱和语义特征的语义消歧算法,根据计算的语义特征分数对候选消歧词排序。
4. 使用BERT预训练语言模型对文本编码,基于知识图谱和上下文相似度的语义消歧算法。
5. 使用BERT对文本编码,基于知识图谱和语义特征的语义消歧算法,这是本研究的重点。
- 知识图谱构建结果 :基于训练集构建语义消歧知识图谱,共获得4230个歧义单词、9689个消歧词和999,125个上下文场景。平均一个歧义单词与2.29个消歧词建立关系,一个歧义单词对应236.20个上下文场景。该算法支持大量歧义单词的语义消歧,比之前仅支持10量级语义消歧的算法更适合中文影视剧本的语义消歧工作,且具有一定可扩展性,可应用于其他中文文本或其他类型短文本的语义消歧。

2. 语义消歧系统操作步骤
  • 数据加载 :Web服务启动时在后端执行,自动读取语义消歧知识图谱和BERT预训练语言模型。
  • 获取文本 :将需要语义消歧的文本以每行
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值