python提取文章关键字，并计算出现次数

最新推荐文章于 2024-01-17 14:05:02 发布

原创最新推荐文章于 2024-01-17 14:05:02 发布 · 1.3k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

python 专栏收录该内容

5 篇文章

订阅专栏

context = “”"
继承是多态的前提，为什么我们在学习或者工作中会使用多态呢？
首先，我们要了解在多态中的两个规则：
1.成员变量：编译看=的左边，运行还是看左边
2.成员方法：编译看=的左边。运行看右边。
下面这个图可以很直观的看出多态的好处：
“”"
import re
import jieba #这个jieba的模块就是用于汉语词语的切割 #对中文文章分词

context = re.sub(r"[\s，.:：？=。!@#$%^&*]+", “”,context) #替换
word_list = jieba.cut(context) #这个是对文本的内容进行切割，分成一个一个小词语，但是不区分动词/名词等等
print(list(word_list)) #打印列表

import jieba.posseg as posseg #导入我们要用的包
words =[] #初始话一个列表，也就是准备一个列表用于数据存储
for word,flag in posseg.cut(context):
if flag == “n” : #判断名词，如果该词语为名词，进入下面的条件代码，进行列表的添加操作。
words.append(word) #将获取到的名词，append到列表
print(words) # 打印输入列表，可以看到具体的结果
dictWordCount ={} #初始化一个字典，用于存储每个词语以及出现的个数
for word in words: #循环遍历我们在上面添加过词语的字典
if word not in dictWordCount: #进行条件判断，如果一个词语第一次出现，那就初始化个数为1
dictWordCount[word] = 1
else:
dictWordCount[word] += 1 #之后因为字典中有数据了那就，加一

print(dictWordCount) #打印

d = {1: 3, 2: 9, 3: 332, 4: 1223}
new = dict()
for i in [1,2,3,4]:
new.update({i: d[i]})
print(new)

l = list()
for i in d:
l.append({i: d[i]})
print(l)

#***********************************************************************
#下面这个方法，就是将文件里的内容进行遍历，
dict_english = {}
def read_englishfileForwords():
with open(“./input_english.txt”) as fin:
for line in fin :
line = line[:-1] #去末尾/n
words = line.split()
for word in words:
if word not in dict_english :
dict_english[word] = 0
dict_english[word] +=1

print(dict_english)