#打包成类
class LanguageDetector():
def __init__(self,classifier=MultinomialNB()):
self.classifier=classifier # 实例化一个贝叶斯分类器
self.vectorizer=CountVectorizer(#实例化一个分词器,基于词袋模型
lowercase=True, # 字母都变成小写
analyzer='char_wb', # 以字母为单位解析,不加的化默认以单词为单位解析
ngram_range=(1,2), # 统计1-3个字母连续出现的概率 ,并记录
max_features=1000, # 只记录出现次数最多的前1000个字母和字母组合,只有这1000个会记录到字典当中
preprocessor=self._remove_noise # 在每次处理数据之前,对句子进行函数操作,这个操作会在下一个函数被定义,效果是去除网络格式的信息
)
def _remove_noise(self,document):
noise_pattern = re.compile("|".join(["http\S+", "\@\w+", "\#\w+"]))
clean_text = re.sub(noise_pattern, "", document)
return clean_text
def features(self,X):
return self.vectorizer.transform(X)# 利用已有的词典,显示这个句子关键词出现次数 如(0
语言种类识别
最新推荐文章于 2025-04-09 15:48:38 发布