PyThorch自然语言处理(二)

自然语言处理(NLP)和计算语言学(CL)是人类语言计算研究的两个领域。

  1. NLP旨在开发解决涉及语言的实际问题的方法,如信息提取、自动语音识别、机器翻译、情绪分析、问答和总结。
  2. CL使用计算方法来理解人类语言的特性。

语料库、令牌和类型

无论是经典的还是现代的,都以文本数据集开始,也称为语料库(复数:corpora)。

语料库通常有原始文本(ASCII或UTF-8格式)和与文本相关的任何元数据。原始文本是字符(字节)序列,但是大多数时候将字符分组成连续的称为令牌(Tokens)的连续单元是有用的。在英语中,令牌(Tokens)对应由空格字符或标点分隔的单词和数字序列。

元数据可以是和文本相关联的任何辅助信息,比如标识符、标签和时间戳。在机器学习的术语里,文本及其元数据称为实例或者是数据点。语料库是一组实例也成为数据集合。
在这里插入图片描述
令牌是NLP的基础,令牌是单词,字符或者子单词。将文本分解为令牌(Tokens)的过程称为令牌化(tokenization)

import spacy
nlp = spacy.load(‘en’)
text = “Mary, don’t slap the green witch”
print([str(token) for token in nlp(text.lower())
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值