综合应用,jieba,去标点,分词保存,统计,删词,输出

import jieba

fp1=r'D:/python/a.txt'
outph=r'D:/python/out.txt'
f=open(fp1,'r',encoding='utf-8')
txt=f.read().strip()
f.close()

words=jieba.lcut(txt)
f=open(outph,'w',encoding='utf-8')
for word in words:
    f.write(word)
    f.write('\n')
f.close()


#第二题去标点,统计词频
bd='[’!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]+,。!?“”《》:、. '
counts={ }
exlutes={'作者','之后'}
for i in bd:
    txt=txt.replace(i,'')   #字符串替换去标点符号

words=jieba.lcut(txt)  #分词
for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0)+1   #所有词全统计
for word in exlutes:
    del(counts[word])   #删除{a,b}
items=list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)
for i  in range(15):
    word,count=items[i]
    print("{0:>10}---{1:<5}".format(word,count))

 

转载于:https://www.cnblogs.com/huigebj/p/11440022.html

### 使用 Jieba 进行分词标点符号的方法 Jieba 是一种高效的中文分词工具,在实际应用中,通常需要掉无意义的标点符号以提高后续处理的效果。可以通过 Python 的字符串方法或者正则表达式来实现这一目标。 以下是具体实现方式: #### 方法一:利用 `string.punctuation` 和自定义标点集合 Python 提供了一个内置模块 `string`,其中包含了常见的英文标点符号列表 `punctuation`。对于中文环境下的特殊字符,则可以手动扩展该列表[^1]。 ```python import jieba import string # 定义要移除的标点符号集 (包括英文字母表中的标点以及额外增加的中文常用标点) custom_punctuations = set(string.punctuation).union(set("!?。"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆")) text = "你好,世界!这是一段测试文本...带有各种标点符号。" words = jieba.lcut(text) filtered_words = [word for word in words if word not in custom_punctuations] print(filtered_words) ``` 此代码片段通过列表推导式过滤掉了所有出现在预设集合内的标点符号[^2]。 #### 方法二:采用正则表达式匹配非汉字部分 另一种更灵活的方式是借助于正则表达式的强大模式匹配能力,仅保留所需的语言成分——即只留下纯汉字、字母或数字等内容项[^3]。 ```python import re import jieba def remove_punctuation(text): # 正则替换掉除了汉字之外的内容 rule = re.compile(r"[^\u4e00-\u9fa5]") result_text = rule.sub('', text) return result_text original_sentence = "我们公园玩吧!!@#$%^&*()" cleaned_sentence = remove_punctuation(original_sentence) seg_list = jieba.cut(cleaned_sentence, cut_all=False) final_result = list(seg_list) print(final_result) ``` 上述脚本展示了如何构建一个简单的函数用于清理输入句子,并将其传递给 Jieba 来完成最终分割操作[^4]。 --- ### 注意事项 - 如果项目涉及多语言混合场景下运行时可能还需要考虑其他类型的排除规则。 - 对某些特定领域术语保持敏感度以免误删重要信息也是值得注意的一环。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值