清华华为发布“万词王”反向词典系统,入选AAAI 2020

清华华为联合打造:多通道反向词典模型‘万词王’
清华大学与华为合作的论文提出了多通道反向词典模型,已在AAAI 2020录用。该模型在中英数据集上实现最佳性能,开发的在线系统万词王支持中英及跨语言反向查词,有助于解决舌尖现象,助力词汇学习。模型基于双向LSTM和注意力机制,结合词性、词类、词素和义原等多个信息通道预测目标词。

本文部分内容源自清华大学计算机系在读博士岂凡超在AI科技评论发布的:话到嘴边却忘了?这个模型能帮你 | AAAI 2020。会议之眼参考论文对模型框架、背景知识以及数据来源、评测部分进行了补充。

岂凡超

 

论文简介和摘要

《Multi-channelReverse Dictionary Model》是由清华大学、华为诺亚方舟合作的论文。该论文已经被AAAI 2020录用。

 

 

 

该文关注反向词典问题——即给定对某个词语的描述,希望得到符合给定描述的词语。该文提出了一种受到人的描述→词的推断过程启发的多通道模型,在中英两种语言的数据集上都实现了当前最佳性能(state-of-the-art),甚至超过了最流行的商业反向词典系统。此外,基于该文提出的模型,论文作者还开发了在线反向词典系统,包含首次实现的中文、中英跨语言反向查词功能。

 

 
论文地址:https://arxiv.org/abs/1912.08441 代码和数据地址:https://github.com/thunlp/MultiRD web端万词王地址:https://wantwords.thunlp.org/

 

网站简介

 

基于论文所提模型的在线反向词典系统——万词王(WantWords):https://wantwords.thunlp.org/。该系统不仅支持英文、中文反向查词,还支持英汉、汉英跨语言反向查词,能够显示候选词的词性、定义等基本信息,且支持按照词性、单词长度、词形等对候选词进行筛选,助你更快找到你想要的词。

图1 万词王示例

 

研究背景


反向词典顾名思义,以对目标词语义的描述为输入,输出目标词以及其他符合描述的词语。

图2 反向词典示例


反向词典有重要的实用价值,其最大的用处在于解决舌尖现象(Tip of the tongue),即话到嘴边说不出来的问题——频繁写作的人,如作家、研究人员、学生等经常会遇到这种问题。
此外,反向词典也可以为掌握词汇不多的新语言学习

### 华为开源语料库与数据集 华为在自然语言处理(NLP)领域做出了重要贡献,特别是在语料库和数据集的开发方面。以下是对华为相关语料库和数据集的详细介绍: #### 悟空数据集 悟空数据集是由华为研究团队构建的一个大规模中文数据集[^2]。该数据集包含从网络收集的1亿个图文对,旨在涵盖尽可能多样的视觉概念。为了确保数据集的多样性和质量,悟空数据集基于包含20条的查询列表进行收集,并通过华为海量新闻文本语料库中出现的中文单和短语的频率进行过滤。这一过程使得悟空数据集成为研究中文自然语言处理的理想选择。 #### ROOTS 数据集合 虽然 ROOTS 数据集合并非由华为直接开发,但它是大语言模型训练中的一个典型开源数据集,具有广泛的适用性[^3]。ROOTS 数据集合是 BigScience 项目用于训练 BLOOM 大语言模型的数据源,支持46种自然语言和13种编程语言,总计59种语言。尽管 ROOTS 数据集合的主要开发者不是华为,但由于其开放性和全面性,华为的研究团队可能也从中受益并利用类似的数据结构来优化自己的模型。 #### 获取华为开源语料库的方法 对于希望使用华为开源语料库的研究者或开发者,可以通过以下途径获取相关信息: 1. 访问华为官方开源平台,如 ModelArts 或 MindSpore 官网。 2. 查阅华为发布的技术文档和论文,了解具体数据集的下载链接和使用指南。 3. 参考公开的学术会议(如 AAAI、ACL 等)中涉及华为研究团队的论文,这些论文通常会提供数据集的详细描述和获取方式。 ```python # 示例代码:如何加载和预处理文本数据 import pandas as pd def load_dataset(file_path): # 假设数据集为 CSV 格式 dataset = pd.read_csv(file_path) return dataset def preprocess_text(text): # 简单的文本预处理示例 text = text.lower() text = text.replace("[^a-z0-9]", " ") return text file_path = "path/to/wukong_dataset.csv" dataset = load_dataset(file_path) processed_texts = dataset['text'].apply(preprocess_text) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值