首先,在路径下新建一个docx文档,这里建立了一个a.docx
文档内容由自己决定,但要有连续重复字
比如:

方法1:
from docx import Document
doc=Document('a.docx')
contents=''.join((p.text for p in doc.paragraphs))
words=[]
for index,ch in enumerate(contents[:-2]):
if ch==contents[index+1] or ch==contents[index+2]:
word=contents[index:index+3]
if word not in words:
words.append(word)
print(word)
方法2:
import re
from docx import Document
doc=Document('a.docx')
text=''.join((p.text for p in doc.paragraphs))
result=re.findall(r'(([\u4e00-\u9fa5、!:;,]).?\2)',text)
for word in result:
print(word[0])
运行后:

如果没有安装docx模块
打开命令行
输入:pip install python-docx
下载即可
本文介绍使用Python从Word文档中提取连续重复字串的方法,包括两种实现方式:一种是利用python-docx模块遍历文档内容,另一种是结合正则表达式进行匹配。在开始前,确保已安装python-docx模块。
2万+

被折叠的 条评论
为什么被折叠?



