Python习题——2018-06-13作业

本文通过使用Scikit-Learn库中的GaussianNB、SVC和RandomForestClassifier三种算法进行分类任务,并采用10折交叉验证的方式评估了这些模型的准确性、F1分数和AUC-ROC值。结果显示,不同模型的表现各有优劣。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scikit-Learn 练习题

Assignment.png
Steps.png


Code

from sklearn import datasets, cross_validation, metrics
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

# Create a classification dataset.
dataset = datasets.make_classification(n_samples=1000, n_features=10)
[X, y] = dataset
acc, f1, auc = 0, 0, 0

# Split the dataset using 10-fold cross validation.
ten_fold = cross_validation.KFold(len(X), n_folds=10, shuffle=True)
for train_index, test_index in ten_fold:
    X_train, y_train = X[train_index], y[train_index]
    X_test, y_test   = X[test_index], y[test_index]

    # Train the algorithms using GaussianNB.
    clf = GaussianNB()
    clf.fit(X_train, y_train)
    pred = clf.predict(X_test)
    # Evaluate the cross-validated performance
    acc += metrics.accuracy_score(y_test, pred)
    f1  += metrics.f1_score(y_test, pred)
    auc += metrics.roc_auc_score(y_test, pred)


print("GaussianNB:")
print("- Accuracy: %f" % (acc/10))
print("- F1-score: %f" % (f1/10))
print("- AUC ROC: %f" % (auc/10))
print()

for value in [1e-02, 1e-01, 1e00, 1e01, 1e02]:
    acc, f1, auc = 0, 0, 0
    for train_index, test_index in ten_fold:
        X_train, y_train = X[train_index], y[train_index]
        X_test, y_test   = X[test_index], y[test_index]

        # Train the algorithms using SVC.
        clf = SVC(C=value, kernel='rbf', gamma=0.1)
        clf.fit(X_train, y_train)
        pred = clf.predict(X_test)
        # Evaluate the cross-validated performance
        acc += metrics.accuracy_score(y_test, pred)
        f1  += metrics.f1_score(y_test, pred)
        auc += metrics.roc_auc_score(y_test, pred)

    print("\nSVC (C = %.0e):" % value)
    print("- Accuracy: %f" % (acc/10))
    print("- F1-score: %f" % (f1/10))
    print("- AUC ROC: %f" % (auc/10))

print()

for value in [10, 100, 1000]:
    acc, f1, auc = 0, 0, 0
    for train_index, test_index in ten_fold:
        X_train, y_train = X[train_index], y[train_index]
        X_test, y_test   = X[test_index], y[test_index]

        # Train the algorithms using RandomForestClassifier.
        clf = RandomForestClassifier(n_estimators=value)
        clf.fit(X_train, y_train)
        pred = clf.predict(X_test)
        # Evaluate the cross-validated performance
        acc += metrics.accuracy_score(y_test, pred)
        f1  += metrics.f1_score(y_test, pred)
        auc += metrics.roc_auc_score(y_test, pred)

    print("\nRandomForestClassifier (n_estimators = %d):" % value)
    print("- Accuracy: %f" % (acc/10))
    print("- F1-score: %f" % (f1/10))
    print("- AUC ROC: %f" % (auc/10))

Output

GaussianNB:
- Accuracy: 0.914000
- F1-score: 0.915247
- AUC ROC: 0.914527


SVC (C = 1e-02):
- Accuracy: 0.865000
- F1-score: 0.868321
- AUC ROC: 0.873646

SVC (C = 1e-01):
- Accuracy: 0.935000
- F1-score: 0.936352
- AUC ROC: 0.935286

SVC (C = 1e+00):
- Accuracy: 0.942000
- F1-score: 0.944010
- AUC ROC: 0.942180

SVC (C = 1e+01):
- Accuracy: 0.932000
- F1-score: 0.933763
- AUC ROC: 0.932221

SVC (C = 1e+02):
- Accuracy: 0.904000
- F1-score: 0.905260
- AUC ROC: 0.904708


RandomForestClassifier (n_estimators = 10):
- Accuracy: 0.961000
- F1-score: 0.961153
- AUC ROC: 0.960277

RandomForestClassifier (n_estimators = 100):
- Accuracy: 0.965000
- F1-score: 0.965509
- AUC ROC: 0.964309

RandomForestClassifier (n_estimators = 1000):
- Accuracy: 0.963000
- F1-score: 0.963489
- AUC ROC: 0.962328

Report

  • SVC的三种得分均随着参数C的增大呈先上升后下降的趋势,说明参数C的取值对SVC的表现有一定影响。
  • 参数n_estimators的改变对RandomForestClassifier的三种得分几乎没有影响,但是从实际运行来看,随着参数n_estimators的增大,训练时间也会增加,综合时间成本来看,选择较小的n_estimators可能更好。
  • 综合三种模型的表现来看,RandomForestClassifier的表现最好,但运行时间也最长;而GaussianNB的运行时间最短,但表现最差(相对而言)。
内容概要:本文针对国内加密货币市场预测研究较少的现状,采用BP神经网络构建了CCi30指数预测模型。研究选取2018年3月1日至2019年3月26日共391天的数据作为样本,通过“试凑法”确定最优隐结点数目,建立三层BP神经网络模型对CCi30指数收盘价进行预测。论文详细介绍了数据预处理、模型构建、训练及评估过程,包括数据归一化、特征工程、模型架构设计(如输入层、隐藏层、输出层)、模型编译与训练、模型评估(如RMSE、MAE计算)以及结果可视化。研究表明,该模型在短期内能较准确地预测指数变化趋势。此外,文章还讨论了隐层节点数的优化方法及其对预测性能的影响,并提出了若干改进建议,如引入更多技术指标、优化模型架构、尝试其他时序模型等。 适合人群:对加密货币市场预测感兴趣的研究人员、投资者及具备一定编程基础的数据分析师。 使用场景及目标:①为加密货币市场投资者提供一种新的预测工具和方法;②帮助研究人员理解BP神经网络在时间序列预测中的应用;③为后续研究提供改进方向,如数据增强、模型优化、特征工程等。 其他说明:尽管该模型在短期内表现出良好的预测性能,但仍存在一定局限性,如样本量较小、未考虑外部因素影响等。因此,在实际应用中需谨慎对待模型预测结果,并结合其他分析工具共同决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值