
机器学习实战
镜镜詅痴
这个作者很懒,什么都没留下…
展开
-
机器学习实战笔记:支持向量机
SVM的一般流程:收集数据;准备数据:数值型分析数据:有助于可视化分隔超平面训练算法;测试算法;使用算法; 简化的SMO算法: SMO算法中的外循环确定要优化的最佳alpha对,简化版跳过这一步骤,首先在数据集上遍历每一个alpha,然后在剩下的alpha集合中随机选择另一个alpha,从而构建alpha对。为此,下述代码构建一个辅助函数,用于在某个区间范围内随机选择一个整数。...原创 2018-06-04 11:47:13 · 295 阅读 · 0 评论 -
机器学习实战笔记:Logistic回归
Logistic回归的一般过程为:收集数据;准备数据:要求是数值型分析数据;训练算法:训练的目的是找到最佳的分类回归系数w和b测试算法;使用:输入数据并基于训练好的回归系数对样本进行分类 基于梯度上升法的优化方法确定回归系数: w:=w+α▽f(w),其中w是要优化的参数,α是更新步长,▽是梯度。 ...原创 2018-06-02 12:06:05 · 438 阅读 · 0 评论 -
机器学习实战笔记:利用朴素贝叶斯对文本进行分类
使用朴素贝叶斯的一般流程为:收集数据;准备数据:需要数值型或布尔型数据分析处理数据:绘制特征,特征选择训练算法:计算不同的独立特征的条件概率测试算法;使用算法:这里是利用朴素贝叶斯进行文档分类 要从文本中获取特征,首要的是拆分文本。文本的特征来源于词条(token),一个词条可以是字符的任意组合。每一个文本片段表示为一个词条向量,向量中的值为1表示该词条在文档中出现,0表示该...原创 2018-06-01 12:45:41 · 660 阅读 · 0 评论 -
机器学习实战笔记:集成学习
集成学习分为两类:个体学习器间存在强依赖关系,必须串行生成的序列方法:Boosting个体学习器之间不存在强一赖关系,可同时生成的并行方法:Bagging和随机森林 Boosting: 先从初始训练集训练出一个基学习器...原创 2018-06-05 12:36:01 · 305 阅读 · 0 评论 -
机器学习实战笔记:树回归
使用ID3算法构建的决策树有如下问题:每次选取当前最佳的特征来分割数据,并按照该特征所有可能的取值来切分。也就是说,一个特征有n个取值,那么数据就会被分割成n份。使用某一特征来分割数据后,该特征在之后的算法执行过程中将不会再起作用,这种切分方式过于迅速。不能直接处理连续型特征,只有事先将连续型特征转换成离散型,才能使用ID3算法。 CART算法是一种基于“基尼指数”的决策树构建算...原创 2018-06-13 12:16:45 · 244 阅读 · 0 评论 -
机器学习实战笔记:回归
回归的目的是预测数值型的目标值。即找到一个回归方程,通过求解其中的回归系数(该过程就称为回归),给定输入来得到预测值。这里我们之谈论线性回归。用线性回归找最佳拟合直线 回归的一般方法:收集数据;准备数据;分析数据:可以绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比训练算法:找到回归系数测试算法:使用R^2或者预测值...原创 2018-06-07 10:17:19 · 251 阅读 · 0 评论 -
机器学习实战笔记:K-均值聚类
K-均值算法:首先,随机确定k个初始点作为质心。根据样本与类中心的距离将数据集中的每个点分配到相应的簇中,接着重新计算类中心,迭代直至收敛。 伪代码如下:创建k个点作为起始质心(随机选择)当任意一个点的簇分配结果发生改变时: 对数据集中的每个数据点: 对每个质心: 计算质心与数据点之间的距离 将数据点分配到距其最近的簇...原创 2018-06-09 18:31:30 · 240 阅读 · 0 评论 -
机器学习实战笔记:K近邻算法
K近邻算法原创 2018-06-10 15:42:39 · 230 阅读 · 0 评论 -
机器学习实战笔记:决策树
决策树的每一次判定都是对某一属性的测试,每个测试的结果或是导出最终结论,或是导出进一步的判定问题。决策的最终结论则对应最终的判定结果。 一般的,一棵决策树包含一个根结点,若干内部结点和若干个叶结点:每个叶结点对应于一个决策结果,存放一个类别;每个非叶结点表示一个特征属性测试;每个分支代表这个特征属性在某个域上的输出;每个结点包含的样本集合通过属性测试被划分到子结点中;根结点包含样本全...原创 2018-06-10 22:42:58 · 375 阅读 · 0 评论