
机器学习
简简丹
这个作者很懒,什么都没留下…
展开
-
机器学习实战系列1——基础
第一部分——分类监督学习 监督学习:给定输入样本集,计算出目标变量的结果。 目标变量:将分类问题中的目标变量称为类别。 1. 标称型:在有限目标集中取值,离散型,如分类 2. 数值型:可以从无限的数值集合中取值,连续型,主要用于回归分析 机器学习:把无序的数据转换成有用的信息。两大任务: 1.分类:分类算法存在非均衡分类的问题,产生原因是因为训练样本某...原创 2019-03-24 18:26:42 · 205 阅读 · 0 评论 -
集体智慧编程ch2——提供推荐
基于用户进行过滤基于物品进行过滤关键是理解两张表2-2和2-3,理解两者的区别,涉及到数据集的构建,数据集的变换,相似度的度量,皮尔逊相关系数度量, 给用户推荐相似用户,给用户推荐物品 找寻物品的相似物品,根据用户历史打分物品,推荐...原创 2019-03-24 18:37:03 · 161 阅读 · 0 评论 -
集体智慧编程ch3—发现群组——聚类
数据聚类 一种用以寻找紧密相关的事、人或观点,并将其可视化的方法。目的是采集数据,然后从中找出不同的群组。 分级聚类 通过连续不断地将最为相似的群组两两合并,来构造出一个群组的层级结构。其中的每个群组都是从单一元素开始的。 树状图形式来展示分级聚类结果K均值聚类 首先随机确定K个中心位置,然后将各个数据项分配给最邻近的中心点。待分配完成之后,聚类中心就会...原创 2019-03-24 18:36:19 · 219 阅读 · 0 评论 -
机器学习实战读书笔记系列5——logistic回归
‘每一小节都给出代码,并将运行结果截图放在下面’概念:回归:假设现在有一些数据点,用一条直线对这些点进行拟合(该线成为最佳拟合直线),拟合过程称作回归逻辑回归的主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类(找到最佳拟合参数集)训练分类器就是使用最优化算法,寻找最佳拟合参数二值型输出分类器1.基于logistic回归和sigmoid函数的分类2.基于最优化方法的最佳回...原创 2019-03-24 18:31:54 · 194 阅读 · 0 评论 -
Day1——Data PreProcessing
数据预处理包括以下部分:1.导入库:pandas,numpy2.导入数据集,CSV文件为纯文本的表格形式3.处理缺失数据:缺失值可以取列的平均值或者中间值4.把标称型数据转换为数值型数据5.数据集划分为测试集和训练集6.特征缩放(降维)...原创 2019-03-24 18:30:27 · 123 阅读 · 0 评论 -
机器学习实战系列14——奇异值分解SVD
奇异值分解1. 概念将一个复杂的矩阵分解为3个小的简单的矩阵,其中sigma矩阵只包含对角元素且对角元素降序排列,该对角线元素为奇异值,为原始数据最重要的特征值。奇异值的取舍遵守两种启发式规则:取总量信息的90%,总量信息的计算为:所有奇异值的平方求和对上千万的奇异值,只取前2000到3000的奇异值2. 应用隐性语义分析推荐系统数据降维(特征缩减)3.python...原创 2019-03-24 18:29:48 · 196 阅读 · 0 评论 -
机器学习实战读书笔记系列6——支持向量机
1.概念:支持向量:离分隔超平面最近的那些店分隔超平面:分类的决策边界,将数据分隔开来(wx+b)间隔:点到分隔超平面之间的距离label(w*x+b),其中label取+1,-12.先找支持向量(具有最小间隔的点)SVM主要求alpha,和b再求w根据w*x+b的结果进行分类3.再对间隔最大化...原创 2019-03-24 18:29:24 · 134 阅读 · 0 评论 -
机器学习实战读书笔记系列7——利用AdaBoost元算法提高分类性能
元算法(集成方法):是对其他算法组合的一种方式。(K近邻、朴素贝叶斯、逻辑回归、决策树、支持向量机)、集成形式:不同算法的集成;同一算法在不同设置下的集成;数据集不同部分分配给不同分类器之后的集成。代表:AdaBoost1.基于数据集多重抽样的分类器1.1 bagging(自举汇聚法):基于数据随机抽样的分类器构建方法算法过程:从原始数据集中抽新数据集。每次抽取n个样本,原始数据集中...原创 2019-03-24 18:28:48 · 405 阅读 · 0 评论 -
上手机器学习项目——预测房价
数据流水线:一系列的数据处理组件。组件间是独立的、异步运行、组件间的接口只是数据容器给定商业目标,确定输出划定问题:监督or非监督or强化学习?分类or回归?强化or在线?选择性能指标 回归问题典型指标数均方根误差(RMSE)、平均绝对误差(MAE)核实假设获取数据(下载数据)简单查看数据结构(数据描述、数据属性、)创建测试集有不同的方法(随机抽样、分层抽样)探索数据、可视化...原创 2019-03-24 18:23:05 · 266 阅读 · 0 评论 -
机器学习实战读书笔记系列4——朴素贝叶斯
1.回顾贝叶斯决策理论的核心:选择具有最高概率的决策计算条件概率——贝叶斯准则使用条件概率进行分类,概率大,就分到该类2.使用朴素贝叶斯进行文档分类朴素贝叶斯分类器假设:‘朴素’——特征之间相互独立(对于文本来说,一个单词的出现与其他单词无关),则样本数为N*x每个特征同等重要注:样本数随特征数目增大而增大(指数级)若每个特征需要N个样本,共x个特征,则样本数为NxN...原创 2019-03-24 18:32:13 · 354 阅读 · 0 评论 -
机器学习实战读书笔记系列3——决策树
1.算法定义从数据集合中提取出一系列规则,可以更好的理解数据的内在含义与KNN一样,是结果确定的分类算法,,数据实例会被明确分到某个类中优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征的数据缺点:可能会产生过度匹配问题适用于数值型与标称型数据。树构造算法只适用于标称型数据,数值型数据必须离散化2.决策树构造需考虑的问题:1.数据集的哪个特征在分类...原创 2019-03-24 18:32:33 · 426 阅读 · 0 评论 -
机器学习实战系列2——KNN(近邻)算法
#定义采用不同特征值之间的距离方法进行分类#算法概述给定一个训练集(其中的实例类别已定),对新的输入实例(无标签),比较新实例特征与样本集中的特征,在训练数据集中找到与该实例中最邻近的K个实例,这K个实例的多数属于那个类,就把该输入实例分为这个类(K<=20)输入:实例的特征向量输出:实例的类别三要素:K值的选择,距离度量、分类决策规则——对特征空间的划分1.K值的选择—...原创 2019-03-24 18:32:51 · 283 阅读 · 0 评论