NLP基础1-词向量之序号化，One-Hot，BOW/TF，TF-IDF

知识复盘计划

已于 2023-11-07 02:10:52 修改

阅读量337

点赞数 2

分类专栏：自然语言处理文章标签：自然语言处理 tf-idf 人工智能 python

于 2023-11-01 14:50:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_45792437/article/details/133441726

版权

NLP基础1-词向量之序号化，One-Hot，BOW/TF，TF-IDF
NLP基础2-词向量之Word2Vec
NLP基础3-词向量之Word2Vec的Gensim实现

前言

在分词之后，需要将文本数据转换成数值型数据。常用方式如下：

序号化、哑编码 (One-Hot)、
词袋法 (BOW/TF)、TF-IDF
主题模型 (LSA、LDA等)
Word2Vec （重要）
Char2Vec、Doc2Vec、FastText、cw2vec

一、序号化

1. 基本介绍

根据单词字典来序号化文本中的每个单词 (token)：

字典：key：token，value：序号（0，vocab_size）
序号的编号是从零到词汇表大小
其中包含特殊字符，比如说：
- <PAD>-表示填充字符，在每个批次中文本长度大小不一致，我们需要对他们进行填充补齐
- <UNK>-表示未知字符，也就是说该字符不存在单词词典中
- <NUM>-表示数字
- <PUN>-表示标点符号
- <SYMBOL>表示特殊字符

2. 举例说明

假设现在有已经经过分词后的三个文本：
[[“我”, “是”, “小明”],
[“我”, “来自”, “湖南”, “长沙”],
[“我”, “喜欢”, “辣椒”]]
根据单词词典：
dict = {“<\PAD>”: 0, “<\UNK>”: 1, “我”: 2, “湖南”: 3, “长沙”: 4, “是”: 5, “来自”: 6, “喜欢”: 7, “辣椒”: 8 , …}
那么对应三个文本序号化后就是
[[2, 5, 1, 0],
[2, 6, 3, 4 ],
[2, 7, 8, 0]]
其中：<\PAD>表示填充字符, <\UNK>未知字符

3. 代码实现

# 1. 得到分词后的文本
text = [["我", "是", "小明"],
 ["我", "来自", "湖南", "长沙"],
 ["我", "喜欢", "辣椒"]]
print("="*100)
print("text:")
print(text)

# 2. 构建词典
tokens = set() 
for sentence in text:
    for token in sentence:
        tokens.add(token)
tokens = list(tokens)   # {} → [] set转换为list
tokens.insert(0, "<PAD>")  # 在第一个位置插入<PAD>
tokens.insert(1, "<UNK>")  # 在第二个位置插入<UNK>
print("="*100)
print("tokens:")
print(tokens)
dict = {
   token: i for i, token in enumerate(tokens)}  # 构建字典

# dict = {token: i for i, token in zip(tokens, range(len(tokens)))}
print(

最低0.47元/天解锁文章

知识复盘计划

博客等级

码龄6年

12
原创

161
点赞

145
收藏

115
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

目标检测6——一阶段目标检测概述
优快云-Ada助手: 恭喜你写了第10篇博客！看到你对一阶段目标检测的概述，我感到非常兴奋。你的文章内容清晰易懂，对于这个复杂的主题做了很好的总结。接下来，我建议你可以深入探讨一些具体的一阶段目标检测算法，或者分享一些实际应用案例，这样可以让读者更加深入地了解这个领域。期待你的下一篇文章！加油！
目标检测7——SSD: Single Shot MultiBox Detector
优快云-Ada助手: 恭喜您写了第11篇博客，标题为“目标检测7——SSD”！您的持续创作精神令人钦佩。阅读您的博客，我深入了解了SSD目标检测的相关知识，受益匪浅。在下一步的创作中，我建议您可以进一步拓展内容，例如探索SSD目标检测在实际应用中的效果和局限性，或者与其他目标检测算法进行对比分析。同时，如果您能分享一些实践经验或者提供一些实际案例，将会使博客更加实用和有趣。再次恭喜您的创作成果，并期待您未来更多精彩的博客！谢谢您的分享！
图像分类1-LeNet模型结构及其Pytorch实现
优快云-Ada助手: 恭喜作者撰写了第12篇博客，“图像分类1-LeNet模型结构及其Pytorch实现”！不断分享知识和经验，对读者们来说是个很好的学习机会。希望作者能继续保持创作的热情和动力，也期待能够看到更多深度学习方面的分享。或许在下一篇博客中，可以探讨一下LeNet模型的优化或者应用场景的拓展，这样可以让读者们有更多的收获。再次感谢作者的分享，期待更多精彩的内容！
目标检测5——Faster R-CNN（RPN网络代替Selective Search来获取候选框）
优快云-Ada助手: “恭喜您第9篇博客的发布！看到您对Faster R-CNN的深入探讨，我感到非常欣慰。不过我还是希望您能在下一篇博客中加入更多实际案例和应用场景的分析，这样更能帮助读者理解和应用您所分享的知识。期待您的下一篇作品！”
目标检测3——SPPNet（空间金字塔池化可以接收任何尺度的图像）
优快云-Ada助手: 恭喜作者发布了第7篇博客，内容涉及SPPNet的目标检测技术，对于空间金字塔池化能够接收任何尺度的图像进行了深入探讨。非常感谢作者对于技术的深入研究和分享，让我们也能够更深入地了解这方面的知识。希望作者在接下来的创作中，可以适当地加入一些实际案例或者应用场景的分析，让读者更好地理解技术在实际中的应用。同时也可以考虑添加一些与其他相关技术的对比分析，这样可以更好地帮助读者进行技术选择和应用。期待作者在未来的创作中继续保持热情，分享更多有价值的内容，谢谢！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。