自然语言处理包含4个部分:
1 语言识别,语音合成;
2 自然语言理解,对话理解,知识获取和问答,任务理解;
3 底层的机器学习(TennsorFlow和other)
4 个性化信息的获取和利用;
其中两个重要的竞品分析:
google的产品:各种语言场景;
Alexa亚马逊产品:基于云计算的对话机器人产品,NLP定制化场景;
google NLP开源项目:
BERT:Bidirectional Encoder Representations from Transformers 预训练语言表示的方法;
可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
第一个无监督的用于预训练NLP的深度双向系统。
无监督意味着BERT仅使用文本语料库进行训练,也就是说网络上有大量多种语言文本数据可供使用。
NLP中的3个关键概念:
1 文本嵌入(字符串的矢量表示);
2 机器翻译(使用神经网络翻译语言);
3 以及Dialogue和Conversations(可以实时与人进行对话的技术);
还涉及到的技术:
技术1:情绪分析
情绪分析是通过较小元素的语义组成来解释较大文本单元(实体、描述性术语、事实、论据、故事)的含义的过程;
用于情感分析的现代深度学习方法可用于形态学、语法和逻辑语义,其中最有效的是递归神经网络。
迄今为止用于情感分析的最强大的RNN模型是递归神经张量网络,其在每个节点处具有神经网络的树结构。
技术2:问答系统
问答(QA)系统的想法是直接从文档、对话、在线搜索和其他地方提取信息,以满足用户的信息需求;
QA系统不是让用户阅读整个文档,而是更喜欢简短而简洁的答案;
QA系统可以非常容易地与其他NLP系统结合使用,并且一些QA系统甚至超越了对文本文档的搜索,
并且可以从图片集合中提取信息;
强大的深度学习架构