48、自然语言处理中的序列预测与循环神经网络

自然语言处理中的序列预测与循环神经网络

1. 文本的数值表示与生成

在自然语言处理里,为了让计算机能够处理文本,我们可以给字典中的每个词条分配一个从 0 开始的唯一编号,这些单词及其对应的编号就构成了我们的词汇表。之后,我们就能把任何句子转化为计算机易于处理的数值表示。

具体操作步骤如下:
1. 构建词汇表:从文本中提取所有不同的单词,按顺序为每个单词分配一个编号。例如,对于查尔斯·狄更斯的《双城记》前六章,我们去除标点并将所有字母转换为小写后,发现这部分文本共有 17,267 个单词,但只有 3,458 个不同的单词,所以这些单词的编号范围是 0 到 3,457。
2. 句子数值化:将句子中的每个单词替换为其对应的编号,形成一个编号序列。
3. 文本生成:把这个编号列表输入到经过训练的自回归网络中,该网络会预测下一个单词的编号,将这个预测的单词添加到输入的单词序列中,然后继续预测下一个单词,如此循环。最后,我们可以将编号转换回对应的单词,从而得到生成的文本。

2. 微调与下游网络

在很多情况下,我们会先在通用数据库上训练一个系统,然后对其进行专门化处理。这涉及到两种重要的技术:微调(Fine - Tuning)和下游网络(Downstream Networks)。

  • 微调 :在自然语言处理中,一个从通用数据库学习过的系统被称为预训练系统。当我们想要让系统学习新的专业语言,比如法律、诗歌或工程领域的语言时,就可以使用新的数据对网络进行微调。与迁移学习不同,微调通常会修改系统中的所有权重。

    • 操作步骤:
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值