社区分享|了解 NLP 在 TensorFlow 2.x 中的最佳实战

本文介绍了如何在TensorFlow 2.x中利用TextVectorization处理NLP任务,避免额外的词表和程序。文章探讨了tf.strings的功能,展示了数据对齐的方法bucket_by_sequence_length,以及在BERT模型中使用字符串的简化算法。

本文来自社区投稿与征集,作者 段清华 DEAN,Google Developers Expert。

本文转自:https://zhuanlan.zhihu.com/p/293208563

 

本文会介绍TensorFlow 2.x在处理NLP任务中的一些工具和技巧,包括:

  • tf.keras.layers.experimental.preprocessing.TextVectorization

  • tf.strings

  • tf.data.experimental.bucket_by_sequence_length

  • BERT with strings

 

TextVectorization

在完成 NLP 任务的时候,经常需要把文字(一般是字符串),转换为具体的词向量(或字向量)。

或者说把文字转换为对应的词嵌入 (Word Embedding/Token Embedding)。

一般来说我们可能会这么做:制作一个词表,然后写程序把对应的词(字)映射到整数序号,然后就可以使用如tf.keras.layers.Embedding层,把这个整数映射到词嵌入。

但是这种做法有一个问题,就是你需要一个额外的程序,和一份此表,才能把文字(字符串)转换为具体的整数序号。

因为需要额外的

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值