自然语言处理NLP小结

介绍

自然语言处理 (Natural Language Processing, NLP) 是人工智能 (AI) 最热门的领域之一,也被称为人工智能皇冠上的明珠。这要归功于诸如撰写连贯文章的文本生成器、聊天机器人以及产生照片级真实感的文本到图像程序等应用程序。近年来,计算机理解人类语言、编程语言,甚至类似于语言的生物和化学序列(例如 DNA 和蛋白质结构)的能力发生了革命。最新的人工智能模型正在解锁这些领域,以分析输入文本的含义并生成有意义的、富有表现力的输出。

什么是自然语言处理 (NLP)

自然语言处理 (NLP)是一门构建机器的学科,这些机器可以以书面、口头和组织的方式操纵人类语言(或类似于人类语言的数据)。它从计算语言学发展而来,计算语言学利用计算机科学来理解语言原理,但 NLP 不是开发理论框架,而是一门工程学科,旨在构建技术来完成有用的任务。NLP 可以分为两个重叠的子领域:自然语言理解 (NLU),重点是语义分析或确定文本的预期含义;自然语言生成 (NLG),重点是机器生成文本。NLP 与语音识别分开,但经常结合使用,语音识别旨在将口语解析为单词,将声音转换为文本,反之亦然。

为什么自然语言处理 (NLP) 很重要?

NLP 是日常生活中不可或缺的一部分,并且随着语言技术应用于零售(例如,客户服务聊天机器人)和医学(解释或总结电子健康记录)等不同领域,它变得越来越重要。亚马逊的Alexa和苹果的Siri等会话代理利用 NLP 来倾听用户的查询并找到答案。最复杂的此类代理(例如最近开放用于商业应用的GPT-3 )可以生成有关各种主题的复杂散文,以及能够进行连贯对话的强大聊天机器人。谷歌使用 NLP 来改进其搜索引擎结果,而 Facebook 等社交网络则使用它来检测和过滤仇恨言论。
NLP 变得越来越复杂,但仍有许多工作要做。当前的系统容易出现偏差和不连贯,并且偶尔会表现得不稳定。尽管面临挑战,机器学习工程师仍有很多机会以对社会正常运转更加重要的方式应用 NLP。

自然语言处理 (NLP) 有何用途?

NLP 用于各种与语言相关的任务,包括回答问题、以各种方式对文本进行分类以及与用户对话。
以下是 NLP 可以解决的 11 项任务:

  • 情感分析是对文本的情感意图进行分类的过程。一般来说,情感分类模型的输入是一段文本,输出是所表达的情感是正面、负面或中性的概率。通常,此概率基于手动生成的特征、单词 n-gram、TF-IDF 特征,或使用深度学习模型来捕获连续的长期和短期依赖性。情绪分析用于对各种在线平台上的客户评论进行分类,以及用于识别在线评论中精神疾病迹象。
    情感分析

  • 毒性分类是情感分析的一个分支,其目的不仅是对敌对意图进行分类,而且还对特定类别进行分类,例如威胁、侮辱、淫秽和对某些身份的仇恨。这种模型的输入是文本,输出通常是每类毒性的概率。毒性分类模型可用于通过压制攻击性评论、检测仇恨言论或扫描文档是否存在诽谤来调节和改善在线对话。

  • 机器翻译可以自动实现不同语言之间的翻译。这种模型的输入是指定源语言的文本,输出是指定目标语言的文本。谷歌翻译可能是最著名的主流应用程序。此类模型用于改善 Facebook 或 Skype 等社交媒体平台上人们之间的沟通。有效的机器翻译方法可以区分具有相似含义的单词。有些系统还执行语言识别;也就是说,将文本分类为一种语言或另一种语言。

  • 命名实体识别旨在将一段文本中的实体提取到预定义的类别中,例如人名、组织、位置和数量。这种模型的输入通常是文本,输出是各种命名实体及其开始和结束位置。命名实体识别在总结新闻文章和打击虚假信息等应用中非常有用。例如,以下是命名实体识别模型可以提供的功能:
    命名实体

  • 垃圾邮件检测是 NLP 中常见的二元分类问题,其目的是将电子邮件分类为垃圾邮件或非垃圾邮件。垃圾邮件检测器将电子邮件文本以及标题和发件人姓名等各种其他潜文本作为输入。他们的目的是输出邮件是垃圾邮件的概率。Gmail 等电子邮件提供商使用此类模型,通过检测未经请求和不需要的电子邮件并将其移至指定的垃圾邮件文件夹来提供更好的用户体验。

  • 语法错误纠正模型对语法规则进行编码以纠正文本中的语法。这主要被视为序列到序列的任务,其中模型以不符合语法的句子作为输入和正确的句子作为输出进行训练。Grammarly等在线语法检查器和Microsoft Word等文字处理系统使用此类系统为客户提供更好的写作体验。学校也用它们来对学生的论文进行评分。

  • 主题建模是一种无监督的文本挖掘任务,它获取文档语料库并发现该语料库中的抽象主题。主题模型的输入是文档的集合,输出是主题列表,该列表定义了每个主题的单词以及文档中每个主题的分配比例。潜在狄利克雷分配 (LDA) 是最流行的主题建模技术之一,它尝试将文档视为主题的集合,将主题视为单词的集合。主题建模正在商业上用于帮助律师在法律文件中查找证据。

  • 文本生成,更正式地称为自然语言生成 (NLG),生成与人类编写的文本类似的文本。这些模型可以进行微调,以生成不同类型和格式的文本——包括推文、博客,甚至计算机代码。文本生成是使用马尔可夫过程、LSTM、BERT、GPT-2、LaMDA和其他方法执行的。它对于自动完成和聊天机器人特别有用。

    • 自动完成功能可以预测接下来出现的单词,并且 What
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我喝AD钙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值