五、多分类，One-hot

最新推荐文章于 2025-07-11 17:00:13 发布

原创最新推荐文章于 2025-07-11 17:00:13 发布 · 390 阅读

0 ·

CC 4.0 BY-SA版权

tensorflow 专栏收录该内容

30 篇文章

订阅专栏

这篇博客深入探讨了多分类问题中的一热编码方法，指出了其空间消耗和效率问题。同时，介绍了softmax函数及其在概率分布计算中的应用。接着，详细讲解了交叉熵损失函数的计算过程，并通过示例展示了如何使用numpy实现。文章最后通过一个实例演示了分类预测与实际标签的误差评估。

1、耗费空间
2、数据量更新起来，效率低
3、遗漏很多重要信息

def one_hot(elements):
    pure = list(set(elements))

    vectors = []
    for e in elements:
        vec = [0] * len(pure)
        vec[pure.index(e)] = 1
        vectors.append(vec)

    return vectors

print(one_hot(["北京", "上海", "南京", "北京", "重庆", "深圳", "广州", "天津"]))

多分类问题

x = [1237, 4512, 7845]
y = [0, 0, 1, 0, 0]  # x 的真实分类，这里选定为第3类
x = np.array(normalize(x))
weights = np.random.random(size=(3, 5))
# print(np.dot(x, weight))  # logits  算子


def softmax(x):
    """处理数据"""
    x = np.array(x)
    x -= np.max(x)  # 防止数据过大
    return np.exp(x) / np.sum(np.exp(x))

# ic(softmax(np.dot(x, weight)))


def cross_entropy(y, yhat):
    """把真实值和预测值对比"""
    return -np.sum(y_i * np.log(yhat_i) for y_i, yhat_i in zip(y, yhat))

print(cross_entropy(y, softmax(np.dot(x, weights))))