【笔记】happy-llm 第一章 NLP 基础概念

正文详见:happy-llm/docs/chapter1/第一章 NLP基础概念.md at main · datawhalechina/happy-llmhttps://github.com/datawhalechina/happy-llm/blob/main/docs/chapter1/%E7%AC%AC%E4%B8%80%E7%AB%A0%20NLP%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5.md

1.3 NLP任务 

1.3.1 中文分词

在中文中,字和字之间不像英文一样由空格隔开。中文分词的作用是将一句中文中的字切割为一组有序的字词序列(一个字或多个字(词)),使得每个字词所表达的信息都和整句中文相关。

1.3.2 字词切分

字词切分主要用于罕见词、新词或者合成词(常用于拼音文字体系),主要是将一个模型未见过的词如同当年背英文单词时划分词根、词缀一样,分割为他已知的子词使模型理解其大致含义。

疑问:根据网上的信息,中文似乎没用出新的字的必要,是不是就用不到这个功能,还是说可以用它来切割成语?中文是意音文字体系,大概率只会出现“靠”,“囧”这类赋予老字新含义的情况。

1.3.3 词性标注

通过预先定义好的词性标签集,对句子中的单词进行词性分类。文中介绍了通过英语单词的词类(加个标点类)进行分类(越来越像学英语的自己了orz)。

ICTCLAS是目前使用较为广泛的汉语词性标注集规范,如jieba。ICTCLAS 汉语词性标注集 - bbking - 博客园https://www.cnblogs.com/chenbjin/p/4341930.html

 词性标注一般通过查找字典的方式进行处理,如果有没有出现过的新词,则通过机器学习模型来预测其词性。

1.3.4 文本分类

文本分类是对整个文本进行分类,该分类的类别是人工提前设置好的。

1.3.5 实体识别

实体识别中实体的类别也是人工提前设置好的。不同的是,文本分类是为了更快速地了解整个文本的类别,而实体识别是为了更好地探究文本中存在的各个实体之间的关系。

1.3.6 关系抽取

实体识别是识别出文本中的实体并对其分门别类,关系抽取是理解实体之间的语义关系。

1.3.7 文本摘要

用来提取出长篇幅文本的核心信息。

1.3.8 机器翻译

翻译自然语言。

1.3.9 自动问答

理解自然语言提出的问题,并根据给定的数据源自动提供准确的答案。在多模态背景下,还可以做到执行相应的动作

AI的终极目标,嗨,贾维斯。

1.4 文本表示

将自然语言转化为计算机可处理的语言。

1.4.1 词向量

根据词汇表,将文本中的每个词汇都进行向量化表示。当词汇表中词汇的数量过大时,特征维度也会随之增大,导致存在数据稀疏性和维数灾难问题。同时,向量化过程中也没有考虑词汇在文本中的关系性,限制了模型的表现力。

1.4.2 语言模型N-gram

通过前面N-1个词预测当前词出现概率。其优点是实现简单、容易理解且效果不错,但是当N较大时依然会存在数据稀疏性和维数灾难问题。

N-gram一般应用在搜索引擎,语音识别等N的取值不会特别大且对前置词敏感的任务上,所以以上问题其实可以忽略。

1.4.3 Word2Vec

Word2Vec主要有两种架构:CBOW(完型填空)和Skip-Gram。通过这两个架构,使得Word2Vec能够生成带有上下文信息的低维的密集向量。

1.4.4 ELMo

经过Word2Vec后,词向量基本不再使用one-hot这类存在数据稀疏性和维数灾难问题的表示方法。而是通过预训练模型,捕捉到词汇的上下文信息,生成更加丰富和准确的词向量表示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值