Python 中re库的简单使用

1.findall() 方法(返回一个列表)

代码如下:

import re

text = ""
f = open("testtext.txt",'r',encoding="cp936")
for each_line in f:
    text = text+each_line
f.close()
#result = re.findall(" ([A-z][A-z][A-z]) ",text) # return list “[]”内是需要匹配的内容,这里A-z指的是所以的英文字母,得到结果加上“()”,返回时,返回的是括号里的内容。

result = re.findall(" (A[a-z][a-z]) | (a[a-z][a-z]) ",text) #找到文章中所有以a开头的长度为3个字母的单词。
setdic1 = set()
for each in result:              #并将它们转换为集合格式
    if each[0] not in setdic1:
        setdic1.add(each[0])
    if each[1] not in setdic1:
        setdic1.add(each[1])
result = re.findall("[A-z]+",text) 
setdic = set(result)  #return set 可以将返回的列表转换成集合形式。
count = 0
for iteam in setdic:
    count = count+1
print(result)
#print(setdic)
#print(count)
#print(text)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值