
本文来自社区投稿与征集,作者 段清华 DEAN,Google Developers Expert。
本文转自:https://zhuanlan.zhihu.com/p/293208563
本文会介绍TensorFlow 2.x在处理NLP任务中的一些工具和技巧,包括:
-
tf.keras.layers.experimental.preprocessing.TextVectorization
-
tf.strings
-
tf.data.experimental.bucket_by_sequence_length
-
BERT with strings
TextVectorization
在完成 NLP 任务的时候,经常需要把文字(一般是字符串),转换为具体的词向量(或字向量)。
或者说把文字转换为对应的词嵌入 (Word Embedding/Token Embedding)。
一般来说我们可能会这么做:制作一个词表,然后写程序把对应的词(字)映射到整数序号,然后就可以使用如tf.keras.layers.Embedding层,把这个整数映射到词嵌入。
但是这种做法有一个问题,就是你需要一个额外的程序,和一份此表,才能把文字(字符串)转换为具体的整数序号。
因为需要额外的

本文介绍了如何在TensorFlow 2.x中利用TextVectorization处理NLP任务,避免额外的词表和程序。文章探讨了tf.strings的功能,展示了数据对齐的方法bucket_by_sequence_length,以及在BERT模型中使用字符串的简化算法。
最低0.47元/天 解锁文章
4358

被折叠的 条评论
为什么被折叠?



