
Skicit-learn
文章平均质量分 79
天甜费,
python,为梦想启航
展开
-
#第30篇分享:乳腺癌预测及SVC的探索(python语言:sklearn支持向量机svm)(6)
⑥.SVM:(可做分类预测及回归预测,选择不同的核函数即可)①算法概念:支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。②.算法思路:初识SVM;加深理解;公式推导,声音磁性,讲解透彻,爱了爱了;③优缺点: 优点:可以解决高维问题,即大型特征空间;能够处理非线性特征的相互作用;无需依赖整个数据;可以提高泛化能力原创 2021-03-08 15:28:28 · 1846 阅读 · 1 评论 -
#第29篇分享:房价预测(python语言:sklearn 线性回归)(5)
b.回归算法:①.线性回归:①算法概念:线性回归才是真正用于回归的,而不像logistic回归是用于分类,其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化,找到误差函数最低点的线性系数w:②.算法思路:线性回归线性关系模型:损失函数:找损失函数最低点有两个办法:第一个:正规方程:111第二个:梯度下降:③优缺点:优点:实现简单,计算简单;缺点:不能拟合非线性数据;④.代码实例:#coding=gb2312from sklearn.datasets impor原创 2021-03-08 10:59:01 · 475 阅读 · 0 评论 -
#第32篇分享:一个评分卡的数据挖掘(python语言:sklearn 逻辑回归)(8)
⑤.逻辑回归:111①算法概念Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。②.算法思路:③Logistic回归优缺点:优点:实现简单;分类时计算量非常小,速度很快,存储资源低;缺点:容易欠拟合,一般准确度不太高;只能处理两分类问题(在此基础上衍生出来的softmax可原创 2021-03-07 21:52:38 · 596 阅读 · 0 评论 -
#第31篇分享:泰坦尼克生存预测(python语言:sklearn 随机森林)(7)
④.随机森林(分为分类随机森林及回归随机森林):非常好用,及其常用,要弄明白①算法概念:随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的;随机森林运行快速的一个原因是他一棵树只选部分特征进行建立。②.算法思路:每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging (Bagging的特点“随机采样”)思想,回归就原创 2021-03-07 20:53:34 · 478 阅读 · 0 评论 -
#第30篇分享:泰坦尼克生存预测(python语言:sklearn 决策树)(6)
③.决策树:分为分类树及回归树①算法概念:决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它,简单理解就是信息增益越大,用来区分约原创 2021-03-07 20:46:23 · 322 阅读 · 0 评论 -
#第28篇分享:数据聚类及降维(python语言:sklearn 聚类算法KMeans)(4)
c.聚类算法(无监督学习:):①.K-means(k-means clustering algorithm):①算法概念k均值聚类算法是一种迭代求解的聚类分析算法:其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心(质心),然后计算每个对象与各个种子质心之间的距离,把每个对象分配给距离它最近的质心;接着根据距离的均值更换质心,直到质心不变或者变化较小后,聚合结束。从上面可以看出,质心的选择及K的选择会影响最终的聚类效果。②.算法思路:添加链接描述③优缺点:优点:算法容易理解,聚原创 2021-03-07 19:37:08 · 938 阅读 · 0 评论 -
#第27篇分享:数据无量纲化(python语言:sklearn 预处理及特征工程)(3)
4.数据无量纲化:数据预处理,提升算法的准确度:a.无量纲化(nondimensionalize 或者dimensionless):是指通过一个合适的变量替代,就是通过计算,将数据转变为更适合模型计算的数值,经过实践发现无量纲化后确实会加快算法速度及提升准确度。b.机器学习的特点:是数据训练之前的数据需要人工处理一下,因为sklearn模型是不接受字符串类型的数据,我们需要把字符串等类型数据统一转换为模型可识别的数值类型,比如对三分类变量用[0,1,2]代替;c.我们想提升模型的准确度:仅仅把字符串转原创 2021-03-07 18:40:49 · 2541 阅读 · 0 评论 -
#8生活小妙招:数据集的获取(python语言:sklearn 数据集)
附录2:机器学习中的数据集:**数据集:面对自己的任务肯定有自己的数据集,sklearn有内置的数据集,在datasets模块下面;还可以去网站:UCI数据集,kaggle数据集,和鲸社区。#9.===========================================数据集划分:训练集+测试集(75%+25%)====================建立模型,评估模型from sklearn.model_selection import train_test_splitfrom sk原创 2021-03-07 14:49:15 · 189 阅读 · 0 评论 -
#第26篇分享:一个文本分类的数据挖掘(python语言:sklearn 朴素贝叶斯NB)(2)
②.朴素贝叶斯算法:(朴素贝叶斯分类常用于文本分类,尤其是对于英文等语言来说,分类效果很好;它常用于垃圾文本过滤、情感预测、推荐系统等)①算法概念:(小数据,以概率计算,假设特征之间独立)朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布),计算过程非常简单,只是做了一堆计数。NB有一个条件独立性假设,即在类已知的条件下,各个特征之间的分布是独立的。②.算法思路:NB属于娱乐的概率是0,显然是不太好的,所以出现了拉普拉斯平滑系数,就是加上个系数,不让他的值是0:拉普拉斯平滑(模块内原创 2021-03-07 14:35:03 · 545 阅读 · 1 评论 -
#第25篇分享:一个用户签到位置数据挖掘实例(python语言:sklearn KNN)(1)
#sklearn支持向量机,支持向量机是一个相对较难的算法,但是也是非常有用的,无论是回归还是离散的数据预测都可以进行,那么我们就来见识一下他的魅力吧:1.支持向量机的思想:2.实例:持续更新,,,,,,...原创 2021-02-28 20:01:36 · 743 阅读 · 0 评论 -
#第23篇分享:一个北京二手房价格数据挖掘实例(python语言:sklearn随机森林)
#本次是做一个北京二手房的数据挖掘案例,主要是汇总一下学过的知识,并且通过实例加深一下印象,话不多说,开干:目的:预测二手房的价格;工具:语言python;爬虫模块scrapy,数据清洗:xpath;数据分析:pandas,matplotlib,numpy三剑客;数据预测:sklearn;操作流程:先爬取数据,然后清洗数据及分析数据,最后选择合适的机器学习算法进行房价预测。1.数据爬取(;爬虫模块scrapy,数据清洗:xpath):2.数据分析(pandas,matplotlib,numpy)原创 2021-02-15 22:32:12 · 3047 阅读 · 1 评论 -
#第18篇分享:python机器学习-sklearn简介(初识0)
#python机器学习-sklearn学习笔记:1.sklearn做什么的:2.与其他模块的区别:3.了解一下各个部分:#持续更,,,,,,,原创 2020-12-28 17:20:08 · 565 阅读 · 0 评论