python3 从文本中提取单词

博客展示了代码相关内容,包含输入文本、代码本身以及输出结果,聚焦于信息技术领域代码的运行流程呈现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 输入文本如下:

2.代码如下

3.输出结果如下

### 德语文本处理与单词提取 为了从德语文本提取单词并生成单词本,可以利用 Python 的强大字符串操作功能以及正则表达式模块 `re` 来完成这一任务。以下是具体方法: #### 文本预处理 在处理任何自然语言数据之前,通常需要对文本进行清理和标准化。这一步骤可能包括去除标点符号、转换大小写以及其他不必要的字符。 ```python import re def preprocess_text(text): text = text.lower() # 将所有字母转为小写以便统一处理[^1] text = re.sub(r'[^\w\s]', '', text) # 使用正则表达式移除标点符号和其他特殊字符[^2] return text ``` #### 单词分割 通过空白符或其他分隔符来拆分经过预处理的文本成单独的词语列表是一个常见的做法。 ```python def extract_words(preprocessed_text): words = preprocessed_text.split() # 利用 split 方法基于空格划分单词[^3] return words ``` #### 去重及计数 对于构建词汇表来说,去重复是非常重要的;另外统计每个单词出现频率也有助于后续分析或者学习优先级设定。 ```python from collections import Counter def create_vocabulary(words_list): word_counts = Counter(words_list) # 统计各单词频次[^4] unique_words = list(word_counts.keys()) # 获取唯一单词集合[^5] return unique_words, dict(word_counts) ``` #### 完整流程示例 下面给出一个完整的例子展示如何读取文件中的德语内容,并最终得到不含重复项的单词及其对应的出现次数。 ```python if __name__ == "__main__": with open('german_text.txt', 'r', encoding='utf-8') as file: raw_content = file.read() cleaned_content = preprocess_text(raw_content)[^6] extracted_words = extract_words(cleaned_content)[^7] vocabulary, frequencies = create_vocabulary(extracted_words)[^8] print("Vocabulary:", vocabulary[:10]) # 打印前十个单词作为样本查看[^9] print("Frequencies of first few words:", {word: freq for (word,freq) in frequencies.items() if word in vocabulary[:10]}) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值