【笔记】happy-llm 第一章 NLP 基础概念

原创已于 2025-07-15 17:58:31 修改 · 922 阅读

·

16

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #笔记 #人工智能

于 2025-06-17 00:40:59 首次发布

正文详见：happy-llm/docs/chapter1/第一章 NLP基础概念.md at main · datawhalechina/happy-llmhttps://github.com/datawhalechina/happy-llm/blob/main/docs/chapter1/%E7%AC%AC%E4%B8%80%E7%AB%A0%20NLP%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5.md

1.3 NLP任务

1.3.1 中文分词

在中文中，字和字之间不像英文一样由空格隔开。中文分词的作用是将一句中文中的字切割为一组有序的字词序列（一个字或多个字（词）），使得每个字词所表达的信息都和整句中文相关。

1.3.2 字词切分

字词切分主要用于罕见词、新词或者合成词（常用于拼音文字体系），主要是将一个模型未见过的词如同当年背英文单词时划分词根、词缀一样，分割为他已知的子词使模型理解其大致含义。

疑问：根据网上的信息，中文似乎没用出新的字的必要，是不是就用不到这个功能，还是说可以用它来切割成语？中文是意音文字体系，大概率只会出现“靠”，“囧”这类赋予老字新含义的情况。

1.3.3 词性标注

通过预先定义好的词性标签集，对句子中的单词进行词性分类。文中介绍了通过英语单词的词类（加个标点类）进行分类（越来越像学英语的自己了orz）。

ICTCLAS是目前使用较为广泛的汉语词性标注集规范，如jieba。ICTCLAS 汉语词性标注集 - bbking - 博客园https://www.cnblogs.com/chenbjin/p/4341930.html

词性标注一般通过查找字典的方式进行处理，如果有没有出现过的新词，则通过机器学习模型来预测其词性。

1.3.4 文本分类

文本分类是对整个文本进行分类，该分类的类别是人工提前设置好的。

1.3.5 实体识别

实体识别中实体的类别也是人工提前设置好的。不同的是，文本分类是为了更快速地了解整个文本的类别，而实体识别是为了更好地探究文本中存在的各个实体之间的关系。

1.3.6 关系抽取

实体识别是识别出文本中的实体并对其分门别类，关系抽取是理解实体之间的语义关系。

1.3.7 文本摘要

用来提取出长篇幅文本的核心信息。

1.3.8 机器翻译

翻译自然语言。

1.3.9 自动问答

理解自然语言提出的问题，并根据给定的数据源自动提供准确的答案。在多模态背景下，还可以做到执行相应的动作

AI的终极目标，嗨，贾维斯。

1.4 文本表示

将自然语言转化为计算机可处理的语言。

1.4.1 词向量

根据词汇表，将文本中的每个词汇都进行向量化表示。当词汇表中词汇的数量过大时，特征维度也会随之增大，导致存在数据稀疏性和维数灾难问题。同时，向量化过程中也没有考虑词汇在文本中的关系性，限制了模型的表现力。

1.4.2 语言模型N-gram

通过前面N-1个词预测当前词出现概率。其优点是实现简单、容易理解且效果不错，但是当N较大时依然会存在数据稀疏性和维数灾难问题。

N-gram一般应用在搜索引擎，语音识别等N的取值不会特别大且对前置词敏感的任务上，所以以上问题其实可以忽略。

1.4.3 Word2Vec

Word2Vec主要有两种架构：CBOW（完型填空）和Skip-Gram。通过这两个架构，使得Word2Vec能够生成带有上下文信息的低维的密集向量。

1.4.4 ELMo

经过Word2Vec后，词向量基本不再使用one-hot这类存在数据稀疏性和维数灾难问题的表示方法。而是通过预训练模型，捕捉到词汇的上下文信息，生成更加丰富和准确的词向量表示。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。