
python
文章平均质量分 90
Arron_yuan
use tools
not just use
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
logist回归
logist回归针对多类回归,分成1vs rest 和 1 vs 1两种策略from sklearn.datasets import load_digitsdigits=load_digits()X,y=digits.data[:1700,:],digits.target[:1700]tX,ty=digits.data[1700:,:],digits.target[1700:]f...原创 2018-12-05 11:33:12 · 618 阅读 · 0 评论 -
决策树-分类+回归
决策树,主要用来分类和回归一、首先看下分类决策树#载入鸢尾花数据集from sklearn.datasets import load_irisiris = load_iris()X, y = iris.data, iris.targetfeatures = iris.feature_names#载入交叉验证莫模块from sklearn.cross_validation im...原创 2018-12-06 16:06:30 · 880 阅读 · 0 评论 -
SVM-非线性
SVM非线性内核:多项式 poly 径向基函数 rbf Sigmod 高级定制核一、对比linear和rbf内核的性能区别#比较几种核及参数,挑选出性能最好的svm模型#载入数据from sklearn import datasetsdigits = datasets.load_digits()X,y = digits.data, digits.target#数据区分测...原创 2018-12-06 15:22:57 · 1101 阅读 · 0 评论 -
SVM-SVC分类
SVM优点:用于二元和多元分类器、回归和新奇性检测 良好的预测生成器,提供了鲁棒的过拟合、噪声数据和异常点处理 成功处理了涉及到很多变量的场景 当变量比样本还多是依旧有效 快速,即使样本量大于1万 自动检测数据的非线性,不用做变量变换SVM缺点:应用在二元分类表现最好,其他预测问题表现不是太好 变量比样例多很多的时候,有效性降低,需要使用其他方案,例如SGD方案 只提供预测...原创 2018-12-06 01:21:09 · 17007 阅读 · 3 评论 -
梯度下降SGD
当数据过多时,无法将数据一次性加载到内存中,进行模型训练,因此可以使用随机梯度下降回归器或分类器,作为线性预测器该方法每次只是用一个观察点来进行参数优化,因此代码使用ridge或lasso回归到达可比较的结果之前,采用了更多的迭代,但只需要较少的内存和时间。使用SGD优化时,需要测试不同的代价函数性能,一些SGD对异常点抵抗力较强,例如分类的modfied_huer和回归的huber...原创 2018-12-06 00:17:14 · 465 阅读 · 0 评论 -
正则化线性模型
线性回归模型,只能通过变量添加特征、交互作用和变换来增加对数据特征的适应性和估计的可变性,即使用高方差换取更小的偏差。为了权衡控制偏差和方差,可以用L1和L2正则化。L1:也成Lasso,把系数变为0,做出了特征选择 L2:也称Ridge,降低大部分有问题的特征系数,非常小,但>0.所有系数继续参与估计,但系数变得小所以无关。通过超参数alpha控制正则化强度,区间为【0,1...原创 2018-12-05 23:45:45 · 884 阅读 · 0 评论 -
线性回归中的非线性变换
非线性变换在线性回归模型中,会发现有些变量与预测变量不是线性关系,所以需要非线性变换,把非线性关系转换为线性关系。一、单变量做变换载入boston房价数据from sklearn.datasets import load_bostonfrom random import shuffleboston = load_boston()#seed(0) # Creates a repl...原创 2018-12-05 23:00:01 · 6398 阅读 · 0 评论 -
K最近邻(KNN)
K最近邻算法#K最近邻算法分辨手写数字图片from sklearn.datasets import load_digitsfrom sklearn.decomposition import PCAdigits = load_digits()pca = PCA(n_components=25)pca.fit(digits.data[:1700,:])X, y = pca.transf...原创 2018-12-05 12:28:47 · 213 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯 条件概率P(A|B)=P(B|A)*P(A)/P(B)scikit-learn在sklearn.naive_bayes模块提供三种朴素贝叶斯类:多项贝叶斯 二项贝叶斯 高斯贝叶斯示例:预测文本分类from sklearn.datasets import fetch_20newsgroupsnewsgroups_train = fetch_20newsgrou...原创 2018-12-05 11:53:13 · 244 阅读 · 0 评论 -
随机森林详解
随机森林是由Leo Breiman和 Adele Cutler发展的分类和回归算法,使用了大量的决策树模型,从而通过降低估计的偏差和方差来提高精确的预测。作为开箱即用的算法,随机森林算法的执行步骤主要如下:创建大量决策树,每棵树之间都不一样,基于观察点和变量的不同子集。 为每棵树用自助法(bootstrap)来采样观察数据集(用置换法从原始数据采样)。相同的观察点可以在相同的数据集出现多...原创 2018-12-06 19:29:21 · 2442 阅读 · 0 评论