基于tf1.x的feature_columns相关特征处理方法到tf2.x时的迁移

最新推荐文章于 2023-02-02 16:07:02 发布

原创最新推荐文章于 2023-02-02 16:07:02 发布 · 359 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow

tensorflow2.x 同时被 2 个专栏收录

39 篇文章

订阅专栏

推荐

17 篇文章

订阅专栏

这篇博客介绍了如何在 TensorFlow 2.x 中将传统特征列（feature columns）转换为 Keras 预处理层。内容涵盖了连续数值的离散化处理、字符型数据的桶化编码、字符串的数字化以及数字类型的编码。同时，提到了CategoryEncoding、Embedding、Normalization等Keras层在特征转换中的应用，确保输入数据统一为one_hot、multi_hot或integer形式。此外，还列举了sequence_categorical_column等序列数据的处理方法，帮助读者理解和迁移TensorFlow特征列到Keras预处理层的转换过程。

下表是对应的特征处理表逻辑：keras layer中对应的处理类更加直接易于理解。

例如连续性数字的离散化处理layers.Discretization

字符型或无大小关系的hash桶化：layers.Hashing

字符串的数字化编码处理：layers.StringLookup

数字类型（无大小区分）数据的数字化编码：layers.IntegerLookup

上面三个可以将输入统一化为one_hot、multi_hot或integer

对于integer形式，可以再通过使用layers.CategoryEncoding实现指定维度的映射变换（可训练）

Feature Column	Keras Layer
feature_column.bucketized_column	layers.Discretization
feature_column.categorical_column_with_hash_bucket	layers.Hashing
feature_column.categorical_column_with_identity	layers.CategoryEncoding
feature_column.categorical_column_with_vocabulary_file	layers.StringLookup or layers.IntegerLookup
feature_column.categorical_column_with_vocabulary_list	layers.StringLookup or layers.IntegerLookup
feature_column.crossed_column	layers.experimental.preprocessing.HashedCrossing
feature_column.embedding_column	layers.Embedding
feature_column.indicator_column	`output_mode='one_hot'` or `output_mode='multi_hot'`*
feature_column.numeric_column	layers.Normalization
feature_column.sequence_categorical_column_with_hash_bucket	layers.Hashing
feature_column.sequence_categorical_column_with_identity	layers.CategoryEncoding
feature_column.sequence_categorical_column_with_vocabulary_file	layers.StringLookup, layers.IntegerLookup, or `layer.TextVectorization`†
feature_column.sequence_categorical_column_with_vocabulary_list	layers.StringLookup, layers.IntegerLookup, or `layer.TextVectorization`†
feature_column.sequence_numeric_column	layers.Normalization
feature_column.weighted_categorical_column	layers.CategoryEncoding