第一章(2)
知识补充:
词性标注:就是给词语标注属性,包括名词、动词、形容词、副词、代词、数词、介词等等。
分词:是自然语言处理(NLP)中的一个基本任务,指的是将连续的文本划分为单独的单位,如单词、短语或符号。分词在文本预处理阶段起到关键作用,有助于提高后续NLP任务的性能,如句法分析、情感分析和命名实体识别等。例如:我爱你中国 可以划分成“我爱你/中国”
模型:在机器学习中,“模型”通常指的是一个数学或统计学的函数或算法,它能够从给定的数据集中学习出一些规律或者模式,并用这些规律或模式来进行预测或分类。
自然语言处理的几种方式(基本范式)
主要包括:基于规则的方法、基于机器学习的方法以及基于深度学习的方法。上述三种范式虽然有很大的不同,但是都有一个相同点就是需要针对特定任务进行构建。
1、基于规则的方法(基于词典的方法)
基于规则的自然语言处理方法的主要思想是通过词汇、形式文法等制定的规则引入语言学知识,从而完成相应的自然语言处理任务。
基于规则的方法基本流程如图所示,主要包含:数据构建、规则构建、规则应用和效果评价等四个部分。
方法核心是规则形式定义,其目标是使得语言学家可以在不了解计算机程序设计的情况下,能够容易地将知识转换为规则。
例如:其他领域的业务专家(不了解计算机知识),通过直接在搜索系统后台配置同义词词典、业务词词典,来影响搜索效果。
常见的规则包括产生式、框架、自动机、谓词逻辑、语义网等形式。例如,产生式规则是以
“IF-
THEN”
形式构造,表示如果满足条件,则执行相应的语义动作。
比如:同义词

文章介绍了自然语言处理中的三种主要方法:基于规则的方法,基于机器学习的方法,以及基于深度学习的方法。基于规则的方法依赖于语言学家的知识和规则构建,而机器学习方法需要大量有标注数据和特征工程。深度学习方法则通过自动学习特征表示简化了流程。此外,提到了大模型如GPT-3和PaLM在自然语言处理中的应用,它们减少了对任务特定设计的需求。
最低0.47元/天 解锁文章
759





