语言种类识别

最新推荐文章于 2025-04-09 15:48:38 发布

猪怼怼

最新推荐文章于 2025-04-09 15:48:38 发布

阅读量780

点赞数

文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/q141711890014/article/details/118031340

版权

这篇博客介绍了如何进行语言种类识别，包括英语、德语等，并展示了词代模型的分词实例，如‘orange’、‘banana’等词语出现的频率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#打包成类
class LanguageDetector():
    def __init__(self,classifier=MultinomialNB()):
        self.classifier=classifier # 实例化一个贝叶斯分类器
        self.vectorizer=CountVectorizer(#实例化一个分词器，基于词袋模型
            lowercase=True,  # 字母都变成小写
            analyzer='char_wb', # 以字母为单位解析,不加的化默认以单词为单位解析
            ngram_range=(1,2), # 统计1-3个字母连续出现的概率 ，并记录
            max_features=1000, # 只记录出现次数最多的前1000个字母和字母组合，只有这1000个会记录到字典当中
            preprocessor=self._remove_noise # 在每次处理数据之前，对句子进行函数操作，这个操作会在下一个函数被定义，效果是去除网络格式的信息
            )
        
    def _remove_noise(self,document):
        noise_pattern = re.compile("|".join(["http\S+", "\@\w+", "\#\w+"]))
        clean_text = re.sub(noise_pattern, "", document)
        return clean_text
    
    def features(self,X):
        return self.vectorizer.transform(X)# 利用已有的词典，显示这个句子关键词出现次数 如（0