自然语言处理与机器学习代码示例详解
1. 生成 5 - 元组(5 - grams)
下面的代码用于将文本转换为小写,去除非字母数字字符,分词并生成 5 - 元组:
import re
from nltk.util import ngrams
str = str.lower()
str = re.sub(r'[^a-zA-Z0-9\s]', ' ', str)
tokens = [token for token in str.split(" ") if token != ""]
grams5 = list(ngrams(tokens, 5))
print("Generated 5-grams:")
print(grams5)
操作步骤:
1. 使用 lower() 方法将文本转换为小写。
2. 利用正则表达式 re.sub(r'[^a-zA-Z0-9\s]', ' ', str) 替换非字母数字字符为单个空格。
3. 通过 split() 方法分词,并过滤掉空字符串。
4. 使用 ngrams() 函数生成 5 - 元组。
2. NLTK 词性标注(POS)
以下代码展示了如何使用 NLTK 对句子进行分词并确定每个单词的词性:
import nltk
from nltk.tokenize import word_tok
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



