
机器学习
文章平均质量分 81
fresh_suger
永远年轻,永远热泪盈眶
展开
-
混淆矩阵(Confusion Matrix)分析
ContentConfusionMatrixExampleTalbe ofconfusionPreference Confusion Matrix在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:match转载 2017-06-06 11:37:41 · 2459 阅读 · 0 评论 -
各种聚类算法的系统介绍和比较
最近项目用到聚类算法,将其系统的总结一下。一、简要介绍1、聚类概念聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。2、聚类和分类的区别聚类技术通常又被称为无监督学习,因为与监督学习不同,在聚类中那些表示数据类别的分类或者分组信息是...转载 2018-04-16 22:15:42 · 14678 阅读 · 1 评论 -
一个Spark推荐系统引擎的实现
http://www.cnblogs.com/muchen/p/6882465.html前言 经过2节对MovieLens数据集的学习,想必读者对MovieLens数据集认识的不错了;同时也顺带回顾了些Spark编程技巧,Python数据分析技巧。 本节将是让人兴奋的一节,它将实现一个基于Spark的推荐系统引擎。 PS1:关于推荐算法的理论知识,请读者先自行学...转载 2018-03-30 15:49:47 · 3542 阅读 · 0 评论 -
损失函数 代价函数 目标函数之间的关系
损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function)举个例子解释一下:上面三个图的函数依次为 , , 。我们是想用这三个函数分别来拟合Price,Price的真实值记为 。我们给定 ,这三个函数都会输出一个 ,这个输出的 与真实值 可能是相同的,也可能是不同的,为了表示我们拟合的好坏,...原创 2018-03-19 21:12:42 · 2911 阅读 · 0 评论 -
决策树 ID3 C4.5 CART
我的有道云笔记原创 2018-03-19 21:01:40 · 220 阅读 · 0 评论 -
逻辑斯蒂回归(LR)的总结
我的有道云笔记原创 2018-03-19 21:01:13 · 319 阅读 · 0 评论 -
xgboost linux安装
xgboost是GBDT算法的实现,可以做回归,分类,和排序。支持各种语言调用,支持单机和分布式。非常适合于大规模数据集安装从项目主页下载源码,解压。[root@biostacs qgzang]# git clone --recursive https://github.com/dmlc/xgboostCloning into 'xgboost'...remote: Counting obje...原创 2017-06-28 17:19:54 · 1576 阅读 · 0 评论 -
python中sklearn实现交叉验证
http://blog.youkuaiyun.com/ztchun/article/details/711695301、概述在实验数据分析中,有些算法需要用现有的数据构建模型,如卷积神经网络(CNN),这类算法称为监督学习(Supervisied Learning)。构建模型需要的数据称为训练数据。模型构建完后,需要利用数据验证模型的正确性,这部分数据称为测试数据。测试转载 2017-06-26 15:59:41 · 5411 阅读 · 2 评论 -
数据预处理与特征选择
http://blog.youkuaiyun.com/u010089444/article/details/70053104?locationNum=10&fps=1#目录(?)[-]数据预处理1 归一化11 区间缩放Min-Max scaling12 标准化standardization2 特征二值化3 one-hot编码4 缺失值计算5 数据变换6 样本不均转载 2017-06-08 15:59:26 · 13811 阅读 · 0 评论 -
用 LSTM 做时间序列预测的一个小例子 ,问题:航班乘客预测
https://machinelearningmastery.com/time-series-prediction-lstm-recurrent-neural-networks-python-keras/数据:1949 到 1960 一共 12 年,每年 12 个月的数据,一共 144 个数据,单位是 1000下载地址目标:预测国际航班未来 1 个月的乘客数import numpyimport ...转载 2018-04-24 11:27:46 · 13357 阅读 · 5 评论