#tokenizer function, this will make 3 grams of each query
def get_ngrams(query):
tempQuery = str(query)
ngrams = []
for i in range(0,len(tempQuery)-3):
ngrams.append(tempQuery[i:i+3])
return ngrams
#by zgd
def get_ngrams_zgd(input):
output = {}
n = 3
for i in range(len(input) - n + 1):
ngramTemp = " ".join(input[i:i + n])
if ngramTemp not in output:
output[ngramTemp] = 0
output[ngramTemp] += 1
return output
python处理文本使用n-gram方法
最新推荐文章于 2025-10-23 09:20:58 发布
本文介绍了两种不同的3-gram特征提取方法,一种是通过滑动窗口的方式从查询字符串中生成连续的三个字符组合,另一种是由zgd提出的方法,不仅生成3-gram,还统计了每个3-gram出现的频率。
AI助手已提取文章相关产品:
您可能感兴趣的与本文相关内容
3598

被折叠的 条评论
为什么被折叠?



