大模型学习 (Datawhale_Happy-LLM)笔记
任务2:第一章 NLP 基础概念
1. 什么是 NLP
NLP (Natural Language Processing)自然语言处理的核心意义在于让计算机理解人类语言,解读语言背后蕴含的深层含义,让人机进行更丝滑的交互。例如让手机语音助手听懂你的指令,或让翻译软件把中文转成英文。
随着 Deep learning 等技术的发展 NLP 虽已取得了显著进步,但诸多挑战亟待解决(如处理复杂场景下的语言歧义、理解抽象概念、处理隐喻和讽刺、伦理争议以及多模态数据的处理与解读等。)
2. NLP的发展历程:从“规则基础”到“智能学习”
2.1 早期(1940-1960年代):1950 年,Alan Turing (图灵)发表《计算机器与智能》,提出 “图灵测试” 的概念,首次提出机器具备思维的可能性,成为人工智能领域的重要基石。Noam Chomsky (诺姆·乔姆斯基)提出了生成语法理论。(Generative Grammar)生成语法的形式化方法(如递归规则、形式语言理论)为计算机语言处理、编译原理和自然语言理解提供了理论基础。例如,编译器的语法分析算法借鉴了他的句法理论。
2.2 统计方法(1970-1990年代):符号主义(规则基础)和统计方法两派。随着算法算力的提升,统计方法逐步取代复杂手写规则。
2.3 机器学习(2000年代至今):
- 深度学习技术(RNN, LSTM)与注意力机制等应用使 NLP 取得了显著进步
- Word2Vec 的创新:word2vec 是当时在Google 任职的Tomas Mikolov 在 2013 年提出的词嵌入(Word Embedding) 技术,核心目标是将自然语言中的词语映射为低维稠密的实数向量(词向量),使向量空间中的距离能反映词语的语义相关性(如 “国王 - 男人 + 女人≈王后”)。词向量为神经网络提供了有效的语义输入,推动深度学习在 NLP 的落地。
- 2018年BERT模型的诞生,开启了预训练语言模型发展的全新阶段,为自然语言处理技术的演进带来了双重变革。近年来,以GPT-3为代表的Transformer架构模型,通过对千亿级参数规模的模型进行深度训练,不仅实现了高质量文本的生成能力,甚至在部分场景下展现出接近人类写作水平的语义表达与逻辑连贯性。这一技术突破既推动了NLP领域向更智能的文本理解与创作方向迈进,也为跨领域的语言应用带来了前所未有的可能性与技术挑战。
- NLP 现状与未来
以下文字引用 中研网 (https://www.chinairn.com/) 的报告摘要
“2025年,中国自然语言处理(NLP)行业已形成“技术-应用-生态”三位一体的产业格局,市场规模突破400亿元,年复合增长率达33%,占全球市场26%份额。技术层面,大模型参数量突破万亿级,多模态融合技术实现文本、图像、语音的联合推理,行业大模型准确率提升至92%;应用层面,智能客服日均处理咨询量超10亿次,医疗NLP平台接入3000家医院,跨境翻译需求年增长35%;生态层面,开源社区开发者突破100万人,联邦学习框架降低数据泄露风险80%。然而,行业仍面临小语种覆盖不足、模型可解释性缺失、伦理争议等挑战。未来五年,NLP将向“认知智能深化”“多模态交互普及”“产业互联网融合”三大方向演进,推动人类社会进入人机共生的智能时代。”
(https://www.chinairn.com/hyzx/20250427/135126290.shtml[2025年自然语言处理(NLP)行业现状与发展趋势分析]
3. NLP的核心任务:
3.1 中文分词(Chinese Word Segmentation, CWS):把句子拆成有意义的词序列,比如输入是“我喜欢吃苹果”→输出[“我”,“喜欢”, “吃”, “苹果”, “。”]因为中文没空格,所以中文分词是第一步(英文句子词之间有空格, easier)。
3.2 子词切分(Subword Segmentation):子词切分是介于字符(Character)和词语(Word)之间的语义单元切分方法,其核心逻辑是将词语拆分为更小的子单元(如词缀、词根或常见字组合)。常见的子词切分方法有Byte Pair Encoding (BPE)、WordPiece、Unigram、SentencePiece等。例如:英文单词 “unpredictable” 可切分为 “un-”, “predict”, “-able”。其中 “un-” 表否定, “predict” 是预测的意思, “-able” 为英语中的常见后缀,主要用于构成形容词,赋予词汇“可…的;具有…性质的”。
3.3 词性标注 (POS Tagging)
词性标注(Part-of-Speech Tagging, POS Tagging)指为文本中的每个词语赋予其语法词性标签(比如英语的 Noun, N, Verb, V, Adjective, Adj…,其它语言还有相应特殊的标签)的过程。词性标注可以让计算机更好地理解文本的含义,从而进行更复杂的语言任务处理。
词性标注依赖的模型:Hidden Markov Model, Conditional Random Field (统计模型),LSTM/CNN+CRF, Transformer(基于深度学习模型)
3.4 文本分类(Text Classification)
文本分类是自然语言处理的核心任务,旨在将文本自动划归至预定义类别,广泛应用于情感分析、垃圾邮件过滤等场景。以新闻分类为例,如“NBA季后赛下周开启,湖人勇士首轮对阵”属体育类,“美总统宣布加征关税引发贸易争端”属政治类,“苹果发布搭载M3芯片的新款Macbook”属科技类。该任务的关键在于特征表示、分类算法及高质量训练数据。随着深度学习发展,神经网络因能捕捉文本复杂模式与语义信息,成为文本分类的主流趋势。
3.5 实体识别(Named Entity Recognition, NER)
实体识别指从非结构化文本中自动识别具有特定意义的实体,并标注其类别,如人名、地名、机构名等。例如:找出人名、地名等,比如“张三去了北京”→识别“张三”(人名)、“北京”(地名)。它能帮助系统理解文本中的关键元素和属性。
未来的趋势是从单一实体识别到语义关联的升级,比如多模态实体识别(结合图像信息识别实体,识别同一实体的不同表述并链接到知识图谱等)
3.6 关系抽取(Relation Extraction)
关系抽取是从文本中提取实体间语义关系并转化为结构化三元组的技术,需基于实体识别,常见有人物、地理位置等关系类型,应用于知识图谱、智能问答等场景,现借助深度学习向智能化推理演进。
3.7 文本摘要(Text Summarization)
文本摘要作为自然语言处理的重要任务,旨在提炼原文核心内容。它主要分为两类:抽取式摘要直接选取原文关键语句拼接,虽准确但可能语句生硬;生成式摘要则需理解文本深层语义,重组改写生成新内容,技术难度更高,常依赖 Seq2Seq 等复杂模型。文本摘要广泛应用于信息检索等领域,能助力用户高效获取信息 。
3.8 机器翻译(Machine Translation, MT)
机器翻译是NLP核心任务,简单说就是在不同语言直接的转换,不仅要转换词汇,更需准确传达语义、风格及文化背景,确保翻译自然流畅,以打破语言障碍促进交流。简单如“今天天气很好”可准确翻译,但复杂文本处理难度大。如今研究者借助Seq2Seq、Transformer等神经网络模型,学习语言间复杂映射关系来提升翻译质量。
3.9 自动问答(Automatic Question Answering, QA)
自动问答是NLP领域的一个高级任务,大致可分为三类:
- 检索式问答(Retrieval-based QA):搜索引擎
- 知识库问答(Knowledge-based QA): 知识库
- 社区问答(Community-based QA):社区、论坛等。
随着技术的进步,自动问答系统也变的更加智能。
4. 文本表示(Text Representation)
目标:把文字转成数字向量,让计算机能计算语义相似度。
- 向量空间模型(VSM):通过 TF-IDF 等权重将文本转为高维向量,用于文本相似度计算等任务,但存在数据稀疏和维数灾难问题,且忽略词序与上下文结构。
- N-gram 模型:基于马尔可夫假设,通过前 N-1 个词预测当前词概率(如 bigram、trigram),实现简单但 N 较大时数据稀疏,无法捕捉复杂语义依赖,常与其他技术结合使用。
- Word2Vec:2013 年由 Mikolov 提出,通过 CBOW(上下文预测目标词)和 Skip-Gram(目标词预测上下文)架构生成低维密集词向量,能捕捉语义关系(比如“苹果”和“香蕉”的向量距离近,因为都是水果;“国王-男人+女人=王后”,能算语义关系。),但受限于局部上下文,无法处理长距离依赖。
- ELMo/BERT:首次引入预训练 + 微调模式,利用双向 LSTM 生成动态词向量,解决一词多义问题,捕捉上下文语义比如“苹果”在“吃苹果”和“苹果手机”中向量不同,因为语义不同(前者是水果,后者是品牌),但模型复杂度高、训练耗时。
这些技术推动文本表示从静态、局部特征向动态、语义理解演进,为后续深度学习模型奠定基础。