词频统计

weixin_33682719

于 2018-11-19 17:29:00 发布

阅读量53

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/hapyygril/p/9984280.html

def frequncy(data,n):
    import numpy as np
    import jieba.posseg as pog
    text = ''
    for i in np.arange(n):
        text += str(data.ix[i, 'comment'])
    stop_property = ['b', 'c', 'd', 'e', 'f', 'm', 'o', 'p', 'q', 'r', 't', 'u', 'x', 'y', 'z', 'uj', 'nrt', 'eng',
                     'zg', 'ul']
    stop_words = [line.strip() for line in open('stop.txt', encoding='utf-8').readlines()]
    word_generator = []
    word_cut = pog.cut(text)
    for word, flag in word_cut:
        if flag not in stop_property and stop_words:
            word_generator.append(word)

    print(word_generator)
    key_dict={}
    for word in word_generator:
        if word in key_dict:
            key_dict[word]+=1
        else:
            key_dict[word]=0

    key_dict=sorted(key_dict.items(), key=lambda x: x[1], reverse=True)
    print(key_dict[0:10])