
Machine Learning
开心罗
每天一小步
展开
-
Logistic 回归
转自:http://blog.youkuaiyun.com/dongtingzhizi/article/details/15962797#comments其中公式13少了一个负号1.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticRegression部分,写下此篇学习笔记总结一下。转载 2016-12-15 16:47:36 · 379 阅读 · 0 评论 -
回归决策树
决策树构造决策树需要解决的第一个问题就是,当前数据集上那个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,需要对每个特征进行评估,一般评估方式为信息增益也叫做熵,还有吉尼斯系数。原始数据集会被划分为几个数据子集。这些数据子集会分布在第一个决策点的所有分支上。如果某个分之下的数据属于同一类型,则当前无需对数据进一步划分。如果数据子集不属于同一类型,需要重复划分数据子集。对子集原创 2016-12-12 22:28:48 · 3873 阅读 · 1 评论 -
朴素贝叶斯
基础贝叶斯概率是以18世纪的一位神学家托马斯.贝叶斯(Thomas Bayes)的名字命名。贝叶斯理论引入先验知识和逻辑推理来处理不确定命题。条件概率是贝叶斯理论的理论的基础 贝叶斯公式:p(ci|x)=p(x|ci)p(ci)p(x)p\left ( c_{i}|x \right )=\frac{p\left ( x|c_{i} \right )p\left ( c_{i} \right )原创 2016-12-14 22:06:39 · 567 阅读 · 0 评论 -
逻辑线性回归
基础逻辑线性回归(Logistic回归)的原理部分在上篇转载的博文讲解的已经很详细了。直接以示例程序给出示例代码from numpy import *# 文本中加载样本,前两列为特征,最后一列为标签def loadDataSet(): dataMat = []; labelMat = [] fr = open('testSet.txt') for line in fr.re原创 2016-12-16 14:16:30 · 436 阅读 · 0 评论 -
支持向量机
支持向量机SVM一般流程SMO算法伪代码示例代码算法特点支持向量机支持向量机(Support Vector Machine, SVM)的理论知识在上篇转载的博客中讲解的很详细SVM一般流程 收集数据:任意方法 准备数据:需要数值型数据 分析数据:有助于可视化分割超平面 训练算法:SVM的大部分时间都源自训练,该过程主要实现两个参数的调优 测试算法:测试样本带入分隔超原创 2016-12-23 09:26:35 · 1114 阅读 · 0 评论 -
AdaBoost算法
AdaBoost算法AdaBoost算法算法概述AdaBoost算法流程示例代码算法特点算法概述将不同分类器组合起来,这种组合结果被称为集成方法或者元算法。使用集成方法会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,也可以是数据集不同部分分配给不同分类器之后的集成。boosting 是通过关注被已有分类器错分那些数据获得新的分类器,其中最流行的boosting算法为A原创 2016-12-27 09:51:15 · 645 阅读 · 0 评论 -
回归分析
回归分析普通线性回归局部加权线性回归岭回归lasso前向逐步回归回归分析普通线性回归原理回归的目的是预测数值型的目标值,方程y=wx+by=wx+b为回归方程,ww为回归系数,求回归系数的过程就是回归。一旦有了这些系数,再给定输入,做预测就非常容易了。一般的回归都是线性回归,常用方法为最小二乘法:平方误差最小 ∑i=1m(yi−xTiw)2\sum_{i=1}^m \left(y_{i原创 2016-12-30 12:23:41 · 964 阅读 · 0 评论 -
树回归
树回归CART回归树树剪枝模型树算法特点树回归上篇主要讲了线性回归的一些方法,为全局模型。当数据拥有总舵特征并且特征关系复杂时,全局模型会出现较大的偏差。实际情况中很多问题都是非线性的,全局线性模型手段不利于分析。树回归主要有数值型回归树和模型树两种CART回归树决策树主要用于数据的分类,一般用于处理离散型的数据,利用香浓熵来度量集合的无组织程度,选用其他方法来替代香浓熵,就可以使用树构建算原创 2017-01-06 11:36:08 · 435 阅读 · 0 评论 -
使用Apriori算法进行关联分析
Apriori算法关联分析算法概述频繁项集从频繁项集中获取关联规则算法特点Apriori算法关联分析算法概述关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系一般有两种形式:频繁项集和关联规则。频繁项集是经常出现在一块的物品的集合,关联规则按时两种物品之间可能存在很强的关系。下面举例进行说明 交易号码 商品 0 豆奶,莴苣 1 莴苣,尿布,葡萄酒,甜菜 2原创 2017-01-12 11:09:24 · 919 阅读 · 0 评论 -
安装tensorflow,pycharm中出现libcudart.so.8.0: can't open shared object file: No such file or directory
原因如果在安装tensorflow_gpu后,在终端运行正常,而在PyCharm中出现如下错误的 ‘ImportError: libcudart.so.8: cannot open shared object file: No such file or directory’ 即该文件未被找到,但是在环境变量已经设置。问题是在PyCharm中 LD_LIBRARY_PATH=’/usr原创 2017-04-08 20:36:40 · 4943 阅读 · 3 评论 -
SVM算法推导
本片博客是见过讲得最详细的SVM算法,包括核函数,SMO算法的详细推导 转自:http://blog.youkuaiyun.com/xuanyuansen/article/details/41078461支持向量机 SMO算法 上下界(L, H)示意图转载 2016-12-21 16:53:39 · 687 阅读 · 0 评论 -
k-近邻算法
k-近邻算法k-近邻算法采用不同特征之间的距离方法进行分类。在训练样本集中每条记录都存在标签,样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的特征值和样本集中数据对应的特征进行比较。一般情况,选择k个最想死数据中出现次数最多的分类,作为新数据的分类。以电影分类为例,电影特征空间为打斗镜头和接吻镜头。 电影名称 打斗镜头 接吻镜头 电影类型 canifonia原创 2016-12-08 22:11:32 · 729 阅读 · 0 评论