Scikit-Learn

最新推荐文章于 2022-03-30 16:04:07 发布

原创最新推荐文章于 2022-03-30 16:04:07 发布 · 676 阅读

CC 4.0 BY-SA版权

本文通过使用Scikit-Learn库中的多种机器学习算法（如高斯朴素贝叶斯、支持向量机和服务森林分类器），对鸢尾花数据集进行分类任务。文章详细展示了数据集的划分、模型训练及预测过程，并对模型的准确性、F1分数和AUC-ROC等性能指标进行了评估。

Scikit-Learn Assignment

这里写图片描述

Assignment

from sklearn import datasets
from sklearn import cross_validation
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

def DataAnalysis():
    """Followed by steps"""

    iris = datasets.load_iris()

    # Create a classification dataset (n_samples >= 1000, n_features >= 10)
    dataset = datasets.make_classification(n_samples = 1000, n_features = 10,
        n_informative = 2, n_redundant = 2, n_repeated = 0, n_classes = 2)

    print ("dataset information")
    # dataset description
    print (iris.DESCR)
    # data examples (features)
    print (iris.data)
    # data target labels (classes)
    print (iris.target)

    # Split the dataset using 10-fold cross validation
    kf = cross_validation.KFold(len(iris.data), n_folds = 10, shuffle = True)
    for train_index, test_index in kf:
        X_train, y_train = iris.data[train_index], iris.target[train_index]
        X_test, y_test = iris.data[test_index], iris.target[test_index]

    print ("\nsplit the dataset")
    print (X_train)
    print (y_train)
    print (X_test)
    print (y_test)

    # GaussianNB
    clf = GaussianNB()
    clf.fit(X_train, y_train)
    pred = clf.predict(X_test)
    print ("\nGaussianNB")
    print (pred)
    print (y_test)

    # SVC
    clf = SVC(C = 1e-02, kernel = 'rbf', gamma = 0.1)
    clf.fit(X_train, y_train)
    pred = clf.predict(X_test)
    print ("\nSVC")
    print (pred)
    print (y_test)

    # RandomForestClassifier
    clf = RandomForestClassifier(n_estimators = 100)
    clf.fit(X_train, y_train)
    pred = clf.predict(X_test)
    print ("\nRandomForestClassifier")
    print (pred)
    print (y_test)

    # Performance evaluation
    acc = metrics.accuracy_score(y_test, pred)
    print ("\nAccuracy")
    print (acc)
    f1 = metrics.f1_score(y_test, pred, average = "weighted")
    print ("\nF1-score")
    print (f1)
    auc = metrics.roc_auc_score(y_test, pred)
    print ("\nAUC ROC")
    print (auc)

DataAnalysis()