自然语言处理 NO.2

第三章 基础工具集与常用数据集

3.1NLTK工具集

NLTK是python中的一个模块,提供了多种语料库和词典资源,同时页包含了多种自然语言处理工具集,方便了对英文的文本处理。

在系统处理器中输入pip install nltk进行安装。

3.1.1 常用语料库和词典资源

1.停用词

停用词的简单意思就是不代表具体含义的词语,如英语中的“a”、“of”等词,或者中文中的“在”、“中”等词语,对于这些词语,在语言处理中并没有很重要的地位,所以将其删除也不会影响整体,反而会提升处理效率。对不同语言来说,可以查看一种语言的停用词词表,如下:

from nltk.corpus import stopwords
stopwords.words('english')

就可以对英文中的停用词进行了解。

2.常用语料库

### 自然语言处理技术概述 自然语言处理(NLP)是一门融合计算机科学、人工智能以及计算 linguistics 的学科,旨在使机器能够理解并生成人类的语言。随着深度学习的发展,预训练模型已经成为 NLP 领域的重要组成部分[^1]。 #### 统计建模到深度学习的转变 早期的 NLP 方法主要依赖于统计建模,这些方法通过分析大量文本数据来识别模式和规律。然而,这种方法存在局限性,因为它们通常需要大量的手工特征工程。近年来,深度学习逐渐取代了传统的统计方法,在许多任务上取得了显著的效果改进[^3]。 #### 预训练模型的作用 预训练模型是指那些已经在大规模语料库上进行了初步训练的神经网络架构。这类模型可以捕捉通用的语言表示形式,并能迁移到特定的任务中去。例如 BERT、GPT 系列等都是著名的预训练模型实例。由于其强大的迁移能力,使得下游任务的表现得到了极大的提高。 #### 实际应用中的代码片段展示 为了更好地说明如何利用现代框架实现简单的预测功能,下面给出了一段基于 PyTorch 平台下的伪代码: ```python import torch from transformers import BertTokenizer, BertForSequenceClassification tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertForSequenceClassification.from_pretrained('bert-base-uncased') def predict(text): inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True) with torch.no_grad(): outputs = model(**inputs) logits = outputs.logits probabilities = torch.nn.functional.softmax(logits, dim=-1).tolist()[0] return {"positive": probabilities[1], "negative": probabilities[0]} ``` 这段代码展示了怎样加载一个预先训练好的BERT分类器,并对其进行推理操作以获得输入文本的情感倾向得分[^2]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机懒人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值