《自然语言处理导论》读书笔记2

文章介绍了自然语言处理中的三种主要方法:基于规则的方法,基于机器学习的方法,以及基于深度学习的方法。基于规则的方法依赖于语言学家的知识和规则构建,而机器学习方法需要大量有标注数据和特征工程。深度学习方法则通过自动学习特征表示简化了流程。此外,提到了大模型如GPT-3和PaLM在自然语言处理中的应用,它们减少了对任务特定设计的需求。

第一章(2)

知识补充:

词性标注:就是给词语标注属性,包括名词、动词、形容词、副词、代词、数词、介词等等。

分词:是自然语言处理(NLP)中的一个基本任务,指的是将连续的文本划分为单独的单位,如单词、短语或符号。分词在文本预处理阶段起到关键作用,有助于提高后续NLP任务的性能,如句法分析、情感分析和命名实体识别等。例如:我爱你中国   可以划分成“我爱你/中国”

模型:在机器学习中,“模型”通常指的是一个数学或统计学的函数或算法,它能够从给定的数据集中学习出一些规律或者模式,并用这些规律或模式来进行预测或分类。

自然语言处理的几种方式(基本范式)

主要包括:基于规则的方法、基于机器学习的方法以及基于深度学习的方法。上述三种范式虽然有很大的不同,但是都有一个相同点就是需要针对特定任务进行构建。

1、基于规则的方法(基于词典的方法)

基于规则的自然语言处理方法的主要思想是通过词汇、形式文法等制定的规则引入语言学知识,从而完成相应的自然语言处理任务。
基于规则的方法基本流程如图所示,主要包含:数据构建、规则构建、规则应用和效果评价等四个部分。

 

方法核心是规则形式定义,其目标是使得语言学家可以在不了解计算机程序设计的情况下,能够容易地将知识转换为规则
例如:其他领域的业务专家(不了解计算机知识),通过直接在搜索系统后台配置同义词词典、业务词词典,来影响搜索效果。
常见的规则包括产生式、框架、自动机、谓词逻辑、语义网等形式。例如,产生式规则是以 “IF-
THEN” 形式构造,表示如果满足条件,则执行相应的语义动作。
比如:同义词
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值