安装Python扩展库python-docx,然后读取一个Word文章中所有段落的文本,查找并输出其中所有AABB形式的词语,例如踏踏实实、密密麻麻、简简单单、时时刻刻
import docx
import re
file = docx.Document("test.docx")
alist = []
for i in range(len(file.paragraphs)):
pat1 = r'(([\u4e00-\u9fa5])\2([\u4e00-\u9fa5])\3)'
if re.findall(pat1, file.paragraphs[i].text):
alist.append(re.findall(pat1, file.paragraphs[i].text))
print(alist)
使用Python的python-docx库读取Word文档,通过正则表达式匹配找出所有AABB形式的词语,如踏踏实实、密密麻麻等,并将它们收集到列表中。该代码片段展示了如何结合文档处理和文本分析进行特定模式的词汇检索。
4614

被折叠的 条评论
为什么被折叠?



