_统计词频

该博客内容涉及对'walden.txt'文件的读取和处理。首先,通过f.readlines()读取文件,然后使用空格作为分隔符将文本转换为字符串列表。接着,利用Counter模块进行词频统计,输出前12000个最常见的词汇。博客主要探讨了文本分析和处理技术。
f = open('C:\\Users\\Administrator\\Desktop\\walden.txt','r')
f_line = f.readlines()
str = " ".join(f_line)   #转为用分隔符“ ”连接的字符串
words = str.split()     #按某一字符串“ ”分割

from collections import Counter    #导入模块,计数
counter = Counter(words)
dictionary=dict(counter)
k=12000
res=counter.most_common(k)
print(res)
要使用 `count_corpus` 方法统计词频,通常需要提供一个已经分好词的语料库,其中每个样本是一个词列表。该方法会统计所有词的出现次数,并返回一个 `Counter` 对象,记录每个词的频率。以下是一个使用 `count_corpus` 的示例流程: ### 实现步骤 1. **准备语料库**:确保语料库已经分词,每条数据是一个词的列表。 2. **定义 count_corpus 方法**:用于统计所有词的出现次数。 3. **调用 count_corpus 方法**:传入语料库并获取词频统计结果。 ### 示例代码 ```python from collections import Counter # 示例语料库,每个句子已经分词为词列表 corpus = [ ['the', 'time', 'machine', 'by', 'h', 'g', 'wells'], ['the', 'war', 'of', 'the', 'worlds', 'by', 'h', 'g', 'wells'], ['in', 'the', 'year', '2023', 'we', 'learn', 'natural', 'language', 'processing'] ] # 定义 count_corpus 方法 def count_corpus(corpus): """统计语料库中每个词的频率""" tokens = [token for sentence in corpus for token in sentence] return Counter(tokens) # 调用 count_corpus 方法 counter = count_corpus(corpus) print(counter) ``` ### 输出结果 ```python Counter({'the': 4, 'time': 1, 'machine': 1, 'by': 2, 'h': 2, 'g': 2, 'wells': 2, 'war': 1, 'of': 1, 'worlds': 1, 'in': 1, 'year': 1, '2023': 1, 'we': 1, 'learn': 1, 'natural': 1, 'language': 1, 'processing': 1}) ``` ### 说明 - `corpus` 是一个二维列表,每个子列表是一个句子的分词结果。 - `count_corpus` 函数使用列表推导式将所有词展平为一个一维列表,并通过 `Counter` 统计每个词的出现次数。 - 最终返回的 `counter` 对象包含每个词的频率,可用于后续处理,如构建词典或筛选高频词[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值