使用Counter构建词汇表

最新推荐文章于 2025-04-29 10:20:37 发布

原创

最新推荐文章于 2025-04-29 10:20:37 发布 · 945 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了如何使用Python的Counter类来构建词汇表。在处理文本数据时，无论是连续的文本还是二维列表形式的词汇，Counter都能有效地统计元素频率。通过most_common()方法，可以获取最常出现的词汇。此外，还讨论了如何在词汇表中添加'unk'和'pad'特殊标记，并确保它们的特定索引。

这里只记录两种情况：

1

数据集是一段连续的文本，所有词汇放在一个list中（一维的）
text:
在这里插入图片描述
此时Counter（text）,text可以是一个list，统计该list中所有元素出现的次数并返回一个dict

结合most_common()方法，就可构建词汇表：print(Counter(text).most_common(5))

在这里插入图片描述
（5）表示选取频率最高的5个元素，返回由（key,value）元组组成的list
再由二元组列表组成dict：print(dict(Counter(text).most_common(5)))

2

当所有的词汇不是放在一个一维的list中，而是一个二维list：
在这里插入图片描述
我们可以通过二层循环访问到其中的每一个元素，然后要把这些元素的值累计计数
先通过Counter()构建一个空字典（Couner对象）：

sentences = [['BOS', '任', '何', '人', '都', '可', '以', '做', '到', '。', 'EOS'],

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。