自然语言处理在问答系统与社交媒体分析中的应用
1. 定制问答系统开发
在开发一个能回答用户关于计算机所有问题的问答系统时,若已确定一些有问答讨论的网站并配备了爬虫,构建最小可行产品(MVP)的第一步可以是查看这些网站的标记结构。通常,问题和答案会通过不同的 HTML 元素来区分。收集这些信息并专门用于构建问答对索引,就能开启问答系统的开发。
接下来的步骤可以使用文本嵌入技术,并借助 Elasticsearch 进行基于相似度的搜索。以下是构建问答系统的步骤列表:
1. 确定有问答讨论的网站。
2. 部署爬虫抓取数据。
3. 分析网站的 HTML 标记结构,区分问题和答案。
4. 构建问答对索引。
5. 运用文本嵌入技术。
6. 使用 Elasticsearch 进行相似度搜索。
除了这种较为直接的方法,还有其他问答方式。基于深度学习(DL)的文本嵌入能够超越精确匹配,捕捉语义相似性。这种神经问答方法通过比较问题的嵌入向量与文本子单元(单词、句子和段落)的嵌入向量,在文本中寻找答案区间。基于深度神经网络的问答是一个活跃的研究领域,通常作为有监督机器学习问题,使用专门为此任务设计的数据集,如 SQuAD 数据集进行研究。DeepQA 是 Allen NLP 的一部分,是一个使用 DL 架构开发实验性问答系统的流行库。
另一种问答方法是基于知识的问答,它依赖于庞大的知识库以及将用户查询映射到数据库的方法,通常用于回答简短的事实性问题。像 IBM Watson 这样的现实世界问答系统,就结合了上述两种方法。Bing Answer Search API 也是采用混合方法的研究系统示例。
总体
超级会员免费看
订阅专栏 解锁全文
1395

被折叠的 条评论
为什么被折叠?



