
机器学习
lcqin111
这个作者很懒,什么都没留下…
展开
-
关于第一统计矩
https://gregorygundersen.com/blog/2020/04/11/moments/四个第一统计矩为:1.均值2.方差3.偏度E[(σxX−μx)^3^]4.峰度 E[(σX−μ)^4^]原创 2021-07-03 20:51:30 · 336 阅读 · 2 评论 -
文本分类中使用TfidfVectorizer()
在文本分类中,经常使用到TfidfVectorizer()函数,这个函数把词转换为向量,TF是词频,idf是逆文本频率,idf表现一个词在所有文本中出现的频率,它出现的越多说明越不重要,idf即是一个词的重要程度体现,越高越重要。在使用这个函数的时候,需要注意的是,它所输出的结果是一个scipy.sparse.csr.csr_matrix,我们在将结果输入到模型中的时候,需要注意模型是否支持这...原创 2019-05-30 09:42:33 · 6648 阅读 · 0 评论 -
机器学习:概率校准
sklearn.calibration.CalibratedClassifierCV概率校准是对分类的一个补充,优化算法或者验证算法的最优性。这个博客上解释的非常好转载 2019-05-30 09:00:22 · 1371 阅读 · 0 评论 -
sklearn特征选择模块
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)在使用类似SelectKBest的时候,使用fit.transform可以直接得到转换好的数据集对于回归: f_regression , mutual_info_regression 对于分类: chi2 , f_classif , mutual_info_classif如果你使用的是稀...原创 2019-01-11 15:52:23 · 854 阅读 · 0 评论 -
sklearn.model_selection.GridSearchCV
用于小数据量寻找最优参数,该函数参数很多,详情查看:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV该函数返回一个搜寻对象,类似一下的:GridSearchCV(cv=Strat...原创 2019-01-03 20:45:36 · 383 阅读 · 0 评论 -
sklearn predict(X)和predict-proba(X)
在sklearn包里面,一般predict(X)是给出一个N行1列的标签,而predict_proba(X)是给出概率,几个标签就有几列转载 2019-01-03 18:50:54 · 2006 阅读 · 3 评论 -
sklearn中的random_state
转自https://blog.youkuaiyun.com/Tony_Stark_Wang/article/details/80407923很多人都把random_state解释为随机数种子。是不是很懵逼?什么是随机数种子?我也不知道什么是随机数种子。但是,随机数种子是为了保证每次随机的结果都是一样的Example:sklarn可以随机分割训练集和测试集(交叉验证),只需要在代码中引入model_...转载 2018-12-11 18:12:43 · 341 阅读 · 0 评论 -
sklearn.neural_network.MLPClassifier参数说明使用
转自:https://www.jianshu.com/p/71fde5d90136sklearn.neural_network.MLPClassifier1. hidden_layer_sizes :例如hidden_layer_sizes=(50, 50),表示有两层隐藏层,第一层隐藏层有50个神经元,第二层也有50个神经元。 2. activation :激活函数,{‘identi...转载 2018-12-03 20:24:11 · 3278 阅读 · 1 评论 -
Scikit-learn的K-fold交叉验证类ShuffleSplit、GroupShuffleSplit用法介绍
https://blog.youkuaiyun.com/hurry0808/article/details/80797969转载 2018-12-12 20:07:37 · 882 阅读 · 0 评论 -
sklearn:交叉验证
利用 scikit-learn 包中的 train_test_split 辅助函数可以很快地将实验数据集划分为任何训练集(training sets)和测试集(test sets)X_train, X_test, y_train, y_test = train_test_split(... iris.data, iris.target, test_size=0.4, random_...转载 2018-12-12 19:39:03 · 294 阅读 · 0 评论 -
sklearn.svm.svc参数解析
转自博客https://www.cnblogs.com/crawer-1/p/8870700.html首先我们应该对SVM的参数有一个详细的认知: sklearn.svm.SVC 参数说明:本身这个函数也是基于libsvm实现的,所以在参数设置上有很多相似的地方。(PS: libsvm中的二次规划问题的解决算法是SMO)。sklearn.svm.SVC(C=1.0, kernel...转载 2018-11-25 16:49:38 · 731 阅读 · 0 评论 -
sklearn.linear_model.LogisticRegression参数使用
class sklearn.linear_model.LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='liblinear', max_iter=1...翻译 2018-11-08 16:57:36 · 7818 阅读 · 0 评论 -
Sklearn.linear_model.LogisticRegression各类求解器
class sklearn.linear_model.LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='liblinear', max_iter=1...转载 2018-11-08 15:01:58 · 729 阅读 · 0 评论