Word2vec基础介绍（二）：统计词频

最新推荐文章于 2024-12-27 21:45:30 发布

原创

最新推荐文章于 2024-12-27 21:45:30 发布 · 3.4k 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍了Word2vec中的词频统计，重点在于使用MulCounter和WordCounter类。MulCounter是对Python Counter的扩展，支持过滤出现频率过少和过多的词。而WordCounter则负责文本的分词、停用词过滤，为MulCounter提供预处理后的单词数组。

第一步的分词使用jieba来实现，感觉效果还不错。

第二步. 统计词频

统计词频，相对来讲比较简单一些，主要在Python自带的Counter类基础上稍作改进。值得注意的是需要去掉停用词。所谓停用词，就是出现频率太高的词，如逗号，句号等等，以至于没有区分度。停用词可以在网上很轻易找到，我事先已经转化成二进制的格式存储下来了。

2.1 MulCounter

MulCounter完成的是根据单词数组来完成统计词频的工作。
这是一个继承自Counter的类。之所以不直接用Counter是因为它虽然能够统计词频，但是无法完成过滤功能。而MulCounter可以通过larger_than和less_than这两个方法过滤掉出现频率过少和过多的词。

class MulCounter(Counter):
    # a class extends from collections.Counter
    # add some methods, larger_than and less_than
    def __init__(self,element_list):
        super().__init__(element_list)

    def larger_than(self,minvalue,ret='list'):
        temp = sorted(self.items(),key=_itemgetter(1),reverse=True)
        low = 0
        high = temp.__len__()
        while(high - low > 1):
            mid = (low+high) >> 1
            if temp[mid][1] >= minvalue:
                low = mid
            else:
                high = mid
        if