使用sklearn训练语种识别模型

最新推荐文章于 2025-06-06 19:18:45 发布

夏末蝉未鸣01

最新推荐文章于 2025-06-06 19:18:45 发布

阅读量267

点赞数 3

分类专栏： python 文章标签： sklearn python

本文链接：https://blog.youkuaiyun.com/m0_62410482/article/details/145059848

版权

python 专栏收录该内容

24 篇文章

订阅专栏

分析：

训练语种识别模型使用的是sklearn的MultinomialNB方法，MultinomialNB是一种基于贝叶斯定理的分类算法，特别适用于处理具有离散特征的分类问题，如文本分类中的单词计数。它属于朴素贝叶斯算法的一种，主要应用于高维度的特征空间，常见于文档分类、垃圾邮件识别等领域‌。

识别结果与模型的内容和大小有关，结果不一定准确，仅供参考。

代码：

import joblib
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split


texts = [
    'ケーブルタイプ', 'コネクタタイプ', 'シェルタイプ', '対応デバイス', '対応電話モデル', '材質',
    'Connector Type', 'Display Type', 'Finish Type', 'Outer material', 'Model name', 'Grip type'
]
langs = [
    'ja', 'ja', 'ja', 'ja', 'ja', 'ja',
    'en', 'en', 'en', 'en', 'en', 'en'
]

# 划分训练集、测试集
X_train, X_test, y_train, y_test = train_test_split(texts, langs, test_size=0.1, random_state=42)
model = make_pipeline(CountVectorizer(ngram_range=(1, 3), analyzer='char'), MultinomialNB())
model.fit(X_train, y_train)
accuracy = model.score(X_test, y_test)

# 保存模型
joblib.dump(model, 'model.joblib')
# 加载模型
load_model = joblib.load('model.joblib')

print(f"Model accuracy: {accuracy:.4f}")
print(load_model.predict(['Color', 'スタイル']))