38、深度学习数据处理与卷积神经网络入门

web99

于 2025-11-05 10:26:11 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战全景解读文章标签：深度学习数据处理特征编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/web99/article/details/154594470

机器学习实战全景解读专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习数据处理与卷积神经网络入门

1. 特征编码选择

在处理分类特征时，选择合适的编码方式至关重要。一般来说：
- 当类别数量少于 10 时，独热编码（one-hot encoding）通常是首选。
- 当类别数量大于 50（使用哈希桶时常见情况），嵌入（embeddings）通常更合适。
- 当类别数量在 10 到 50 之间，可以对两种方法进行实验，选择最适合具体用例的方式。

需要注意的是，嵌入通常需要更多的训练数据，除非可以重用预训练的嵌入。

2. 嵌入编码分类特征

嵌入是一种可训练的密集向量，用于表示一个类别。默认情况下，嵌入是随机初始化的。例如，“NEAR BAY” 类别最初可能由随机向量 [0.131, 0.890] 表示，“NEAR OCEAN” 类别可能由另一个随机向量 [0.631, 0.791] 表示（这里使用的是二维嵌入，嵌入维度是一个可以调整的超参数）。

由于这些嵌入是可训练的，在训练过程中它们会逐渐优化。相似的类别在训练过程中会在嵌入空间中逐渐靠近，而与不相似的类别则会远离。例如，“NEAR BAY” 和 “NEAR OCEAN” 的嵌入会逐渐靠近，而与 “INLAND” 类别的嵌入则会远离。

以下是使用 TensorFlow 对 ocean_proximity 类别进行二维嵌入编码的示例代码：

import tensorflow as tf

ocean_proximity_embed = tf.feature_column.embedding_c

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。