自然语言处理 (Natural Language Processing, NLP) 是计算机科学与人工智能的一个分支,致力于研究和应用让计算机能够理解、解释、生成和处理人类语言的技术。NLP 结合了语言学、计算机科学、人工智能等多领域的知识,应用广泛,包括机器翻译、语音识别、文本分析、情感分析等。
核心任务和技术
-
文本预处理
- 分词 (Tokenization):将文本分割成词或子词单位。市面上大模型按Token计费,就是按照这个分词为单位。
- 词形还原 (Lemmatization) 与词干提取 (Stemming):将单词还原到其基本形式。
- 停用词过滤 (Stop Words Removal):去除常见但无意义的词(如 “and”, “the” 等)。
- 词向量化 (Word Vectorization):将文本表示成计算机可处理的数值形式,如词袋模型 (Bag-of-Words, BoW)、词嵌入 (Word Embeddings) 等。
-
语言模型
- n-gram 模型:基于固定长度的词序列(n-gram)预测词的概率。
- 神经网络语言模型:使用深度学习模型,如 RNN、LSTM、Transformer 等来捕捉语言的复杂模式。
- 预训练语言模型:如 BERT、GPT 等,通过在大规模文本数据上预训练,然后在特定任务上进行微调。
-
文本分类
- 情感分析 (Sentiment Analysis)<

最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



