日子匆匆过

     今天去北大南门的城隍庙小吃,吃早点。一天无所事事的我正在琢磨今天干点什么,要了个鸡蛋油条和一个茶鸡蛋。打了两碗豆浆,豆浆挺好喝的并且免费,所以就打了两碗,更有甚者,打四五碗~呵呵。在打豆浆的时候看见一个中年人也许长得太老相了,正在聚精会神地做题目,旁边有半碗豆浆;忽然有种说不出的感觉,我怎么就这样一天无所事事啊!我回到我的位子上吃早点,刚吃了一点点又看见对面一个女生正在那个老俞GRE的红宝书在背。。。早点没有吃出什么味道。。。我匆匆出来了。。。。
好的,让我来为您解答这个问题。 首先,我们需要读取这个文件。可以使用 Python 的内置模块 `io` 中的 `open()` 函数打开文件,读取文件内容并存储在一个字符串变量中。下面是示例代码: ```python with open("file.txt", "r", encoding="utf-8") as f: contents = f.read() ``` 请将代码中的 `file.txt` 替换为您实际使用的文件名。 接着,我们可以使用 Python 中的 `collections` 模块中的 `Counter` 类来统计词频。这个类可以很方便地统计每个单词出现的次数。下面是示例代码: ```python import re from collections import Counter # 使用正则表达式提取单词 words = re.findall(r'\b\w+\b', contents) # 使用 Counter 统计词频 word_counts = Counter(words) ``` 上面的代码中,我们使用正则表达式 `r'\b\w+\b'` 来匹配单词,`\b` 表示单词的边界,`\w+` 表示一个或多个字母数字字符。 最后,我们可以使用 Python 的 `gensim` 模块中的 `summarization` 子模块来提取关键字。这个子模块提供了一个叫做 `keywords()` 的函数,可以根据 TF-IDF 算法提取文本中的关键字。下面是示例代码: ```python from gensim.summarization import keywords # 提取关键字 kw = keywords(contents, ratio=0.2) # 打印关键字 print(kw) ``` 上面的代码中,我们使用 `keywords()` 函数提取文本中的关键字,`ratio=0.2` 表示提取关键字的数量占总单词数的比例为 0.2。 完整代码如下: ```python import re from collections import Counter from gensim.summarization import keywords # 读取文件 with open("file.txt", "r", encoding="utf-8") as f: contents = f.read() # 使用正则表达式提取单词 words = re.findall(r'\b\w+\b', contents) # 使用 Counter 统计词频 word_counts = Counter(words) # 打印词频前 10 的单词和它们的出现次数 print(word_counts.most_common(10)) # 提取关键字 kw = keywords(contents, ratio=0.2) # 打印关键字 print(kw) ``` 希望能对您有所帮助!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值