
机器学习实战
文章平均质量分 98
呆呆的猫
爱发呆 爱抹茶 一直在路上
展开
-
【统计学习方法】2、EM算法及其推广
第九章 EM算法及其推广9.1 EM算法的引入9.1.1 EM算法9.1.2 EM算法的导出9.1.3 EM算法在非监督学习中的应用9.2 EM算法的收敛性第九章 EM算法及其推广EM算法是一种迭代算法,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:E步(求期望)+...原创 2018-03-26 20:55:20 · 1424 阅读 · 1 评论 -
【统计学习方法】1、统计学习方法概论
第一章 统计学习方法概论1.1 统计学习1.2 监督学习1.2.1 基本概念1.3 统计学习三要素1.3.1 模型1.3.2 策略1.4 模型评估与模型选择1.4.1 训练误差和预测误差1.4.2 过拟合与模型选择1.5 正则化与交叉验证1.5.1 正则化1.5.2 交叉验证1.6 泛化能力1.6.1 泛化误差1.6.2 泛化误差上界1.7...原创 2018-03-26 17:42:17 · 1658 阅读 · 1 评论 -
【机器学习实战】11、利用SVD简化数据
第十四章 利用SVD简化数据14.1 SVD的应用14.1.1 隐形语义索引14.1.2 推荐系统14.2 矩阵分解(SVD矩阵分解)14.3 利用python实现SVD14.4 基于协同过滤(collaborative filtering)的推荐引擎14.4.1 相似度计算14.4.2 基于物品的相似度还是基于用户的相似度?14.4.3 推荐引擎的评价14.5 ...原创 2018-03-25 17:12:51 · 1553 阅读 · 1 评论 -
【机器学习实战】10、利用PCA来简化数据
第十三章 利用PCA来简化数据13.1 降维技术13.1.1 主成分分析(PrincipalComponentAnalysis,PCA)13.1.2 因子分析(Factor Analysis)13.1.3 独立成分分析(Independent Component Analysis, ICA)13.2 PCA13.2.1 移动坐标轴和降维13.2.2 统计学基本概念13.2...原创 2018-03-24 22:39:45 · 2283 阅读 · 1 评论 -
【机器学习实战】9、利用K-means算法对未标注数据分组
第十章 利用K-means算法对未标注数据分组10.1 K-均值聚类算法10.2 使用后处理来提高聚类性能10.3 二分K-均值算法10.4 总结第十章 利用K-means算法对未标注数据分组簇识别:簇识别给出了聚类结果的含义,假定有一些数据,簇识别会告诉我们这些簇到底都是些什么。聚类与分类的区别:分类的目标事先已知,但是聚类的类别没有事先...原创 2018-03-24 21:05:30 · 2030 阅读 · 2 评论 -
【机器学习实战】8、预测数值型数据:回归
第八章 预测数值型数据:回归 8.1 用线性回归找到最佳拟合直线8.1.1 线性回归8.1.2数据可视化8.1.3 求回归系数向量,并根据系数绘制回归曲线8.2 局部加权线性回归(LWLR)8.3 预测鲍鱼年龄8.4 岭回归8.5 前向逐步回归8.6 预测乐高玩具套件的价格第八章 预测数值型数据:回归 前面章节介绍了分类,分类的目标变量是标称...原创 2018-03-20 17:31:38 · 3085 阅读 · 1 评论 -
【机器学习实战】7、利用 AdaBoost 元算法提高分类性能
第七章 利用AdaBoost元算法提高分类性能7.1 集成方法7.1.1 bagging(自举汇聚法)7.1.2 随机森林(Random Forest,RF)7.1.3 boosting(提升方法)7.1.4 Bagging、Boosting二者之间的区别7.1.5 总结7.2 AdaBoost7.2.1 AdaBoost训练方法:基于错误提示分类器的性能7.2.2 使...原创 2018-03-20 08:52:53 · 5921 阅读 · 1 评论 -
【机器学习实战】6、支持向量机
第六章 支持向量机6.1 什么是支持向量机6.1.1 线性SVM6.1.2 函数间隔和几何间隔6.1.3 最大间隔分离超平面6.1.4 支持向量和间隔边界6.1.4 学习的对偶算法6.2 线性支持向量机与软间隔最大化6.2.1 线性支持向量机6.2.2 学习的对偶算法6.2.3 支持向量6.2.4 合页损失函数6.2.5 编程求解线性SVM6.2.6 简化版SM...原创 2018-03-19 21:05:33 · 22594 阅读 · 14 评论 -
【机器学习实战】5、Logistic 回归
Logistic 回归5.1 基于Logistic回归和Sigmoid函数的分类5.2 基于最优化方法的最佳回归系数确定5.2.1 梯度上升法5.3 python实战5.3.1 查看数据集分布情况5.3.2 训练5.3.3 绘制决策边界5.4 改进的随机梯度上升算法5.4.1 随机梯度上升算法代码:5.4.2 回归系数与迭代次数的关系5.5 示例:从疝气病症...原创 2018-03-16 08:46:51 · 4789 阅读 · 4 评论 -
【机器学习实战】4、基于概率论的分类方法:朴素贝叶斯
朴素贝叶斯法4.1 基于贝叶斯决策理论的分类方法4.1.1 贝叶斯决策理论4.1.2 条件概率4.1.3 全概率公式4.1.4 贝叶斯推断4.1.5 朴素贝叶斯4.2 使用朴素贝叶斯进行文档分类4.3 总结4.4 朴素贝叶斯改进——拉普拉斯平滑4.5 朴素贝叶斯——过滤垃圾邮件4.5.1 收集数据4.5.2 准备数据4.6 朴素贝叶斯——新浪新闻分类(skl...原创 2018-03-15 15:47:39 · 4691 阅读 · 2 评论 -
【机器学习实战】3、决策树
(声明:本文内容来自机器学习实战和统计学习方法,是两者的整合,并非来自单个书籍)决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树。在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。用决策树分类:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点对应着该特征的一个取值,如此递归的对实例进行测原创 2018-03-13 22:23:50 · 373599 阅读 · 82 评论 -
【机器学习实战】2、k-近邻算法
简单的说,k-近邻算法采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)标称型: 标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)原创 2018-03-08 09:59:22 · 5051 阅读 · 2 评论 -
【机器学习实战】1、机器学习主要任务
1.1 何谓机器学习1.2 机器学习重要性1.3 机器学习主要任务1.4 如何选择合适的算法1.5 开发机器学习应用程序的步骤1.6 python语言的优势1.6.1 python语言特色1.6.2 python语言缺点1.1 何谓机器学习把无序的数据转换为有用的信息1.2 机器学习重要性机器学习的重要性不言而喻,它可以帮助我们解决...原创 2018-03-07 22:32:33 · 5079 阅读 · 1 评论