机器学习-sklearn
sklearn-LogisticRegression
导入数据
from numpy import*
from sklearn.datasets import load_iris
iris = load_iris()
samples = iris.data
target = iris.target
划分测试集与训练集
x_train = samples[:100]
y_train = target[:100]
x_test = samples[100:]
y_test = target[100:]
建立模型
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression()
开始训练
classifier.fit(x_train, y_train)
ypred = classifier.predict(x_test)
classifier.score(x_test,y_test)
好像得shuffle,要不然数据太集中了。
sklearn.model_selection.cross_val_score()函数学习
在实际训练中,训练结果对于训练集的拟合程度通常还是挺好的,但是对于训练集之外的数据的拟合程度通常就不那么令人满意。因此我们通常并不会把所有的数据集都拿出来训练,而是一部分来(这一部分不参加训练)对训练集生成的参数进行测试,相对客观的判断这些参数对训练集之外的数据的符合程度。这种思想就叫做交叉验证。

这篇博客探讨了机器学习库sklearn的使用,重点在于LogisticRegression模型的训练,包括数据导入、划分训练集和测试集、模型建立和训练。此外,还详细介绍了交叉验证方法sklearn.model_selection.cross_val_score(),强调了其在评估模型泛化能力中的重要性。最后,文章讨论了GBDT(梯度提升决策树),并展示了如何在鸢尾花数据集上应用GradientBoostingClassifier。
最低0.47元/天 解锁文章
1360

被折叠的 条评论
为什么被折叠?



