1.3 NLP任务
1.3.1 中文分词
在中文中,字和字之间不像英文一样由空格隔开。中文分词的作用是将一句中文中的字切割为一组有序的字词序列(一个字或多个字(词)),使得每个字词所表达的信息都和整句中文相关。
1.3.2 字词切分
字词切分主要用于罕见词、新词或者合成词(常用于拼音文字体系),主要是将一个模型未见过的词如同当年背英文单词时划分词根、词缀一样,分割为他已知的子词使模型理解其大致含义。
疑问:根据网上的信息,中文似乎没用出新的字的必要,是不是就用不到这个功能,还是说可以用它来切割成语?中文是意音文字体系,大概率只会出现“靠”,“囧”这类赋予老字新含义的情况。
1.3.3 词性标注
通过预先定义好的词性标签集,对句子中的单词进行词性分类。文中介绍了通过英语单词的词类(加个标点类)进行分类(越来越像学英语的自己了orz)。
ICTCLAS是目前使用较为广泛的汉语词性标注集规范,如jieba。ICTCLAS 汉语词性标注集 - bbking - 博客园https://www.cnblogs.com/chenbjin/p/4341930.html
词性标注一般通过查找字典的方式进行处理,如果有没有出现过的新词,则通过机器学习模型来预测其词性。
1.3.4 文本分类
文本分类是对整个文本进行分类,该分类的类别是人工提前设置好的。
1.3.5 实体识别
实体识别中实体的类别也是人工提前设置好的。不同的是,文本分类是为了更快速地了解整个文本的类别,而实体识别是为了更好地探究文本中存在的各个实体之间的关系。
1.3.6 关系抽取
实体识别是识别出文本中的实体并对其分门别类,关系抽取是理解实体之间的语义关系。
1.3.7 文本摘要
用来提取出长篇幅文本的核心信息。
1.3.8 机器翻译
翻译自然语言。
1.3.9 自动问答
理解自然语言提出的问题,并根据给定的数据源自动提供准确的答案。在多模态背景下,还可以做到执行相应的动作
AI的终极目标,嗨,贾维斯。
1.4 文本表示
将自然语言转化为计算机可处理的语言。
1.4.1 词向量
根据词汇表,将文本中的每个词汇都进行向量化表示。当词汇表中词汇的数量过大时,特征维度也会随之增大,导致存在数据稀疏性和维数灾难问题。同时,向量化过程中也没有考虑词汇在文本中的关系性,限制了模型的表现力。
1.4.2 语言模型N-gram
通过前面N-1个词预测当前词出现概率。其优点是实现简单、容易理解且效果不错,但是当N较大时依然会存在数据稀疏性和维数灾难问题。
N-gram一般应用在搜索引擎,语音识别等N的取值不会特别大且对前置词敏感的任务上,所以以上问题其实可以忽略。
1.4.3 Word2Vec
Word2Vec主要有两种架构:CBOW(完型填空)和Skip-Gram。通过这两个架构,使得Word2Vec能够生成带有上下文信息的低维的密集向量。
1.4.4 ELMo
经过Word2Vec后,词向量基本不再使用one-hot这类存在数据稀疏性和维数灾难问题的表示方法。而是通过预训练模型,捕捉到词汇的上下文信息,生成更加丰富和准确的词向量表示。