
机器学习实战
文章平均质量分 61
591984826
这个作者很懒,什么都没留下…
展开
-
机器学习实战 ——ch08.回归
一、基础知识准备:1.线性回归: 1) 统计回归分析的任务: 根据x1,x2,x3,...,xp和观察值Y,去估计函数f,寻求变量之间近似的函数关系 2) 参数回归 & 线性回归: 我们常用的是,假定f函数的数学形式已知,其中若干个参数未知,要通过自变量和因变量的观察值去估计未知的参数值。这叫“参数回归”。其中应用最广泛的是f为线性函数的假设: f(x1,x2,x3,原创 2016-08-15 15:41:40 · 303 阅读 · 0 评论 -
机器学习实战——ch08.1回归之岭回归
1.什么是岭回归?对于一个统计学知识匮乏的工科生,还真得好好补补。通过各种信息检索,终于有了一点理解,同时发现了统计学真的很重要,比如金融、生物(尤基因)等与大量数据相关的领域。 岭回归:是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价,获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于原创 2016-08-18 15:16:28 · 1946 阅读 · 0 评论 -
机器学习实战——方差和偏差
在知乎上看到一个简洁易懂的解释:转载 2016-08-18 15:19:59 · 492 阅读 · 0 评论 -
机器学习实战——交叉验证
交叉验证(Cross-validation):主要用于建模应用中,例如PCR 、PLS 回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和十折交叉验证(10-fold cross-validation):用来测试算法准确性。是常用的测试方法。将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试原创 2016-08-18 20:10:49 · 638 阅读 · 0 评论 -
机器学习实战 -ch09.树回归(CART算法)
一. CART vs ID3二. 算法代码及注释没有考虑后面的“树回归和标准回归的对比”,对于剪枝原理也还有待深入的理解# -*- coding:utf-8 -*- from numpy import *#读取数据到矩阵def loadDataSet(filename): dataMat = [] fr = open(filename) for line in fr原创 2016-08-29 19:52:53 · 1007 阅读 · 0 评论 -
机器学习实战——ch8.2 回归之预测乐高玩具价格
这部分由于书上提供的Google的购物API已经关闭,所以只能在实验楼上完成了这个实验(这一次,我只是代码的搬运工) 完整的代码及注释:#-*- coding: utf-8 -*-from numpy import *from BeautifulSoup import BeautifulSoup# 从页面读取数据,生成retX和retY列表def scrapePage(retX, retY,原创 2016-08-24 09:37:38 · 2868 阅读 · 1 评论 -
机器学习实战—ch03 .决策树(ID3算法)
一、基础知识准备:1.标称型 & 数值型 标称型:标称型目标变量的结果只有在有限的目标集中取值,如True、False(标称型目标变量主要用于分类) 数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100、42.001等(数值型目标变量主要用于回归分析)2.信息熵 & 信息增益 信息熵:度量数据集合无序程度的量 信息增益:信息熵(划分数据集前) - 信息熵(划分数原创 2016-08-14 20:46:48 · 483 阅读 · 0 评论