
sklearn框架
文章平均质量分 76
空字符(公众号:月来客栈)
Talk is cheap, show me your code.
展开
-
Scikit-learn——SVM
1. Support Vector Machines支持向量机(SVM)是一组用于分类(classification), 回归(regression)和异常值检测(outliers detection)的监督学习方法。支持向量机的优点是:在高维空间有效。在维度数量大于样本数量的情况下仍然有效。在决策功能(称为支持向量)中使用训练点的子集,因此它也是内存有效的。多功能:可以为决策功能指定不同的原创 2017-11-26 15:45:59 · 1950 阅读 · 0 评论 -
Scikit-learn——Naive Bayes
本文主要介绍sklearn中关于朴素贝叶斯模型的用法,其中主要包含以下两类模型:离散型:所有维度的特征都是离散型的随机变量连续型:所有维度的特征都是连续型的随机变量1.sklearn.naive_bayes.MultinomialNB多项式朴素贝叶斯(Multinomial Naive Bayes),即所有特征都是离散型的随机变量(例如在做文本分类时所使用的词向量就是离散型的).在sklear原创 2017-12-17 19:38:51 · 4025 阅读 · 0 评论 -
Scikit-learn——Decision Tree(Classifier)
本文主要介绍一下sklearn中分类决策树的简单用法。决策树优点: 1.简单易于理解,能够可视化; 2.训练集规模不大,值得注意的是该模型不接受缺失值; 3.使用代价仅为训练样本数取对数; 4.既能够处理数值型数据集(numerical)也能够处理标签型(categorical)数据集 5.能够处理多输出问题; 6.能够用布尔逻辑来表示一种情况的决策过程,不像神经网络完全黑箱; 7.性原创 2018-01-08 20:36:48 · 3591 阅读 · 0 评论 -
Scikit-learn CountVectorizer与TfidfVectorizer
本文主要介绍两个类的基本使用,CountVectorizer与TfidfVectorizer,这两个类都是特征数值计算的常见方法。对于每一个训练文本,CountVectorizer只考虑每种词汇在该训练文本中出现的频率,而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外,同时关注包含这个词汇的其它训练文本数目的倒数。相比之下,训练文本的数量越多,TfidfVectoriz原创 2018-01-18 10:54:42 · 27116 阅读 · 14 评论 -
Scikit-learn——LogisticRegression与SGDClassifier
1.sklearn.linear_model.logistic regression一般来说,逻辑回归用梯度下降算法来求解参数比较常见;所以这也导致一开始误以为LogisticRegression模型就是用梯度下降算法来实现的,当遇到SGDClassifier(Stochastic Gradient Descent)随机梯度下降分类器的时候,就有点蒙了。梯度下降明明是一个求解算法,怎么就和分类器扯上原创 2018-01-18 20:27:17 · 12789 阅读 · 2 评论 -
最佳特征筛选与feature_selection
本文介绍的是如何利用scikit learn中的feature_selection模块来筛选最佳特征。1.读取数据并进行填充titanic=pd.read_csv('./titanic.txt')# print titanic.head()# print titanic.info()#分离数据特征与预测目标y=titanic['survived'] # 提取出survived原创 2018-01-20 10:53:55 · 2863 阅读 · 0 评论 -
交叉验证及并行搜索
1.简单交叉验证简单交叉验证方法是:首先随机地将已给数据分为两个部分,一部分作为训练集,一部分作为测试集;其中最常见的分割方式就是70%作为训练集,30%作为测试集;然后用训练集在各种不同模型下(参数不同)进行训练,从而得到不同的模型;最后选出测试误差最小的模型,作为最终模型.举例: 例如用支持向量机(用法戳此处)来对iris数据集进行分类.一开始时我们不知道用多项式核函数好,还是径向基核...原创 2018-04-06 16:12:01 · 1457 阅读 · 0 评论