
python机器学习--分类
贼贼弟
目前还在学习,想往机器学习转
展开
-
线性分类器
这里介绍两种基本的线性分类器,分别是逻辑斯蒂回归模型(Logistic Regression)和随机梯度下降模型(SGDClassifier)。这里不详细介绍各种模型或算法的理论表述,而采用“良/恶性乳腺癌肿瘤预测”案例来谈具体的编程实现。原始数据来源于(https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-原创 2017-05-30 21:00:20 · 1084 阅读 · 1 评论 -
K近邻分类
K近邻算法和其他模型最大的区别在于该模型没有参数训练过程,它不通过学习算法分析训练数据,而只是根据测试样本在训练数据的分布直接作出分类的决策。K近邻中的K值不属于模型通过训练数据学习的参数,而是在模型初始化过程中提前确定的,不同的K值会获得不同效果的分类器。本篇博客不讲述K近邻模型的理论知识,而是采用一个对鸢尾数据集进行分类的实例进行学习。语言是Python3.6,环境是Anaconda3。原创 2017-06-06 15:08:09 · 1397 阅读 · 0 评论 -
朴素贝叶斯分类器
朴素贝叶斯模型在文本分类中有着广泛的应用,特别是在互联网新闻分类、垃圾邮件的筛选中。朴素贝叶斯模型假设各个特征向量之间相互独立,这使得模型预测所需要估计的参数规模从幂指数数量级向线性量级减少,极大地节约了内存的消耗和计算时间。但是也正是由于这种强假设的限制,模型训练无法将各个特征之间的联系考量在内,使得模型在其他数据特征关联性较强的分类任务上的性能表现不佳。本篇博客不讲述朴素贝叶斯模型的理论知原创 2017-06-06 09:27:36 · 771 阅读 · 0 评论 -
支持向量机(分类)
支持向量机分类器(Support Vector Classifier)是根据训练样本的分布,搜索所有的线性分类器中最佳的那个,有使用过线性分类器的小伙伴们会发现决定直线位置的样本并不是所有训练数据,而是其中两个空间间隔最小的两个不同类别的数据点,我们把这种真正帮助决策最优线性分类模型的数据点叫做“支持向量”。下面使用Scikit-learn内部集成的手写体数字图片数据集进行编程实现,使用的语言原创 2017-06-02 09:51:50 · 1233 阅读 · 0 评论 -
决策树分类
如果要借由一个人的年龄来预测患流感的死亡率,这里肯定无法采用线性模型,如果要用数学表达式描述这种非线性关系,使用分段函数最为合理,而在机器学习模型中,决策树就是描述这种非线性关系的不二之选。决策树常用的度量方法包括信息熵和基尼不纯性,Scikit-learn中决策树模型默认配置的就是基尼不纯性。本篇博客不讲述决策树分类模型的理论知识,而是采用一个对泰坦尼克号乘客是否能够生还进行预测的实例进行学原创 2017-06-13 19:46:42 · 571 阅读 · 0 评论 -
集成模型分类
集成分类模型综合考量多个分类器的预测结果从而做出决策,这种“综合考量”的方式大体上分为两种:(1)利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。比较有代表性的是随机森林分类器(2)按照一定次序搭建多个分类模型,这些模型之间存在依赖关系,一般而言,每一个后续模型的加入都需要对现有的集成模型的综合性能有所贡献,进而不断提升更新过后的集原创 2017-06-13 20:30:40 · 1054 阅读 · 0 评论