文本表示方法--独热编码(One-Hot)

一文解析：One-Hot编码详解及其优缺点

最新推荐文章于 2025-09-13 16:28:13 发布

原创

最新推荐文章于 2025-09-13 16:28:13 发布 · 2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #自然语言处理 #nlp

本文详细介绍了one-hot编码的实现过程，包括手动编码和Scikit-Learn库的LabelBinarizer应用，并探讨其在处理大量词汇和效率方面的局限性。

one-hot编码(每列只有一个1,其他都为0的一维矩阵)

一.图示

在这里插入图片描述

二.代码实现

import numpy as np

# 分词过的语料
corpus = [
    '这 是 第一个 文档',
    '这是 第二个 文档',
    '这是 最后 一个 文档',
    '现在 没有 文档 了'
]

## 1.手动实现
words = []
for corpu in corpus:
    words.extend(corpu.split())
words