Nuget install Knuppe.SharpNL
public static string TokenizerAndStemmingInput(this string oData)
{
//return oData.ToLower();
//var tokenizerWordArray = SimpleTokenizer.Instance.Tokenize(oData.CleanSpecialSymbol());
var tokenizerWordArray = SimpleTokenizer.Instance.Tokenize(oData);
var output = new List<string>();
foreach (var word in tokenizerWordArray)
{
if (word.Trim() != "")
{
var stemWord = EnglishStemmer.Instance.Stem(word);
output.Add(stemWord);
}
}
if (output.Any())
{
return output.Aggregate((m1, m2) => m1 + " " + m2);
}
else
{
return "";
}
}
SharpNL分词与词干提取
本文介绍了一个使用SharpNL库进行文本分词及词干提取的方法。该方法首先利用SimpleTokenizer对输入字符串进行分词,然后通过EnglishStemmer对每个分词进行词干提取,最终将提取后的词干串联成一个新的字符串。
1万+

被折叠的 条评论
为什么被折叠?



