
sklearn
蒽,开心(∩_∩)
这个作者很懒,什么都没留下…
展开
-
机器学习算法性能度量
最近又返回去刷西瓜书了,重新看了一下混淆矩阵,性能度量最常用的就是混淆矩阵了吧?有错误的地方大佬们多多指正 1.混淆矩阵 真的字如其名,初次认识他我真的很容易被混淆,贴上图看一下: (1)查准率(precision): P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP 代表的是预测为正例里面,正确的比例 (2)查全率(召回率)(recall): R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP 代表的是真实值为正例里面被正确预测出来的比例 (3)F1分数原创 2021-07-19 20:49:00 · 264 阅读 · 0 评论 -
sklearn中train_test_split库的使用
背景: 在做数据处理的时候,我们往往拿到的只是一长串的数据,没有将训练集和验证集分开,这时候如果用训练集来训练,再拿训练集来测试,显然是对模型的泛化能力没有帮助的(拿一个好看的结果来欺骗自己),这时候就需要将原始数据进行随机分割,sklearn中提供了train_test_split库用于测试集和训练集的划分。 划分以后的训练集和测试集最终可以用来进行交叉验证。 格式如下: X_train,X_test, y_train, y_test =cross_validation.train_test_s.原创 2021-05-27 10:53:04 · 773 阅读 · 0 评论