根据某篇文章，从中随机抽取6句话，然后再生成随机的词组

最新推荐文章于 2024-07-11 23:09:01 发布

原创最新推荐文章于 2024-07-11 23:09:01 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

本示例展示了一个使用Python进行随机文本生成及分词处理的过程。通过读取文件内容并进行随机句子选择，利用jieba进行中文分词处理，最后构建了一个简单的马尔科夫模型来生成新的文本序列。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#-*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding("gbk")

def autotxt(fname1,times):
import random
import jieba

file = open(fname1)
string=file.read()
listzk=[]
listzk=string.split()

dataset_file = []
for i in range(times):
dataset_file.append(listzk[random.randint(0,len(listzk)-1)])
dataset_file.append(listzk[random.randint(0,len(listzk)-1)])
#dataset_file = ["",""]
print("\n分词前：", dataset_file)
for i, each_sentence in enumerate(dataset_file):
dataset_file[i] = " ".join(jieba.cut(each_sentence))
print("\n分词后：", dataset_file)
model = {}

for line in dataset_file:
    line = line.lower().split()
    for i, word in enumerate(line):
        if i == len(line)-1:
            model['END'] = model.get('END', []) + [word]
        else:
            if i == 0:
                model['START'] = model.get('START', []) + [word]
            model[word] = model.get(word, []) + [line[i+1]]
print("\n模型：", model)
generated = []
while True:
    if not generated:
        words = model['START']
    elif generated[-1] in model['END']:
        break
    else:
        words = model[generated[-1]]
    generated.append(random.choice(words))
print("\n生成的一个结果：" + "".join(generated))
#file.close()

#########################
autotxt('readme.txt',6) # 在文件中，随机抽取6句话，并根据这6句话，随机生成一个新的词组