
机器学习
骄阳如火
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SVM--ML之四
SVM算法简介SVM全程Support Vector Machine,支持向量机,在深度学习出来之前,长期霸占机器学习算法图像识别榜首位置多年,可见该算法的魅力,相当于冷兵器时代的长枪。线性可分支持向量机分割超平面假设在二维平面上有两个数据集,C和D为两个不想交的凸集,则存在超平面P,P可以将C和D分离。 两个集合的距离,定义为两个集合间元素的最短距离; 做集合C和集合转载 2017-10-25 22:25:57 · 477 阅读 · 0 评论 -
随机森林及xgboost调参过程
随机森林参数记录1、先用默认参数看预测结果2、然后用gridsearchcv探索n_estimators的最佳值3、然后确定n_estimators,据此再搜索另外两个参数:再对内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf一起调参 param_test3= {‘min_samples_split’:range(80,...原创 2018-03-09 16:54:54 · 6374 阅读 · 1 评论 -
猜你喜欢-DataCastle
猜你喜欢参考之文章:冠军“yes,boy!”分享,含竞赛源代码背景来自datacastle的竞赛,猜你喜欢 竞赛内容: 个性化推荐已经成为各大电子商务网站的必备服务。准确的推荐不仅可以提高商家的产品销量,更能为顾客提供优质快速的购物体验。推荐系统发展至今,已经有许多非常优秀的推荐算法,从各种不同的角度来为电子商务大厦添砖加瓦。这一次,我们特意为大家准备了一个商品网站的用户评分数据,记录了几年时转载 2017-12-15 20:40:56 · 1342 阅读 · 0 评论 -
scikit-learn 常用模型介绍及使用(下)
scikit-learn 常用模型介绍及使用在上一篇文章主要介绍了机器学习中常用的模型使用方法,比如线性回归、逻辑回归、决策树、随机森林、bagging、random forest、xgboost、adaboost、svm、k-means、密度聚类、谱和谱聚类等,这些在很多的比赛中是比较常用的算法,前几天看一篇文章还介绍xgboost为何在很多比赛中都有较好的效果,速度快、精度也较高,xgboost原创 2017-12-06 19:17:30 · 2678 阅读 · 0 评论 -
scikit-learn 常用模型介绍及使用(上)
scikit-learn 常用模型介绍及使用scikit-learn常用的模型及使用,包括线性回归、逻辑回归、决策树、随机森林、svm、聚类、密度聚类、LDA、HMM、贝叶斯网络等等,介绍下这些算法在scikit-learn中的使用方法。 scikit-learn中常用的方法就是fit(),predict(),predict_proba(),pedcit_log_proba()等方法,下面通过实例原创 2017-12-02 16:12:01 · 8154 阅读 · 1 评论 -
scikit-learn基础使用之一
scikit-learn基础使用之一scikit-learn是机器学习非常常用的一个包,通过scikit-learn可以方便进行机器学习算法的使用,下面总结自己在使用过程中的常用的通用方法,本文参考1 估计器(Esimator)估计器在很多时候可以理解成分类器,主要包括两个函数:fit():预测测试集的类别,参数为训练集和类别两个参数;predict():预测测试集的类别,参数为测试集from转载 2017-11-22 22:37:48 · 673 阅读 · 0 评论 -
基于python的高性能实时并行机器学习框架之Ray介绍
前言加州大学伯克利分校实时智能安全执行实验室(RISELab)的研究人员已开发出了一种新的分布式框架,该框架旨在让基于Python的机器学习和深度学习工作负载能够实时执行,并具有类似消息传递接口(MPI)的性能和细粒度。这种框架名为Ray,看起来有望取代Spark,业界认为Spark对于一些现实的人工智能应用而言速度太慢了;过不了一年,Ray应该会准备好用于生产环境。 目前ray已经发布了0.3.翻译 2017-11-29 15:05:55 · 10191 阅读 · 0 评论 -
隐马模型-ML之八
隐马模型转载 2017-11-14 16:31:15 · 657 阅读 · 0 评论 -
scikit-learn中gridSearchCV 的使用
GridSearchCV使用介绍通常算法不够好,需要调试参数时必不可少。比如SVM的惩罚因子C,核函数kernel,gamma参数等,对于不同的数据使用不同的参数,结果效果可能差1-5个点,sklearn为我们提供专门调试参数的函数grid_search。函数介绍class sklearn.model_selection.GridSearchCV(estimator, param_grid, sco原创 2017-11-13 23:26:21 · 12855 阅读 · 0 评论 -
主题模型LDA-ML之七
LDA 主题模型LDA的应用方向信息提取和搜索文档分类/聚类、文章摘要、社区挖掘基于内容的图像聚类、目标识别生物信息数据的应用基础函数LDA基本函数 LDA涉及的问题共轭先验分布Dirichlet分布LDA模型:Gibbs采样算法学习参数共轭先验分布在贝叶斯概率理论中,如果后验概率p(θ|x)和后验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时先验转载 2017-10-26 19:38:50 · 453 阅读 · 0 评论 -
决策树-ML之三
决策树决策树基本概念熵在决策树模型中,最重要的一个概念就是熵,熵从通俗语言来讲就是信息的不确定性,比如我有一袋5个水果,不知道是什么水果,目前的不确定性是最大的,熵最大,如果拿出来一个是苹果,那么这袋水果的不确定性就减小了,熵也减小了,再拿出一个知道是梨子,熵进一步减小,直到取出所有水果,这时候不确定性最低,都确定了,熵也为0了。 熵的定义是:H(x) = -p(x)log p(x) 联合熵:H原创 2017-10-24 15:55:44 · 287 阅读 · 0 评论 -
WSO2之DAS介绍使用之一
DAS介绍DAS是WSO2的重要组件,全称是Data Analytics Server,是一个功能强大的开源实时数据流分析平台,它提供流数据分析、复杂事件处理、机器学习算法,有效帮助你理解事件、映射影响、模式识别,时间相应在毫秒级。 下面是DAS的数据处理流程。 实时处理百万级数据 基于流分析的优势,构建高可扩展的高效实时分析系统 更便捷的分析方法 利用Siddhi来翻译 2017-10-24 15:59:45 · 1185 阅读 · 0 评论 -
机器学习流程--ML之一
机器学习概论流程机器学习处理的流程大概如下:(1)数据获取 (2)数据清洗,特征工程 (3)模型选择 (4)结果校验那么,在模型选择及结果校验过程中,有如下几个标准:过拟合与欠拟合 过拟合就是模型训练的太好了,在训练集上能够非常好的完成目的,但是在测试集上,效果却很差,通常过拟合是模型参数选择过多导致,而欠拟合就是模型在测试机和训练集上表现都不好。 欠拟合好处理,而过拟合不好处理原创 2017-10-21 19:10:10 · 1035 阅读 · 0 评论 -
线性回归-ML之二
机器学习算法机器学习算法主要介绍线性回归、逻辑回归、决策树、随机森林、提升、svm、聚类、贝叶斯算法、LDA,HMM算法。线性回归方法:使用极大似然估计解释最小二乘法误差是独立同分布的,服从均值为0,方差为定值的高斯分布(中心极限定理)。中心极限定理实际问题中,很多随机现象可以看做众多因素的独立影响的综合反应,往往近似服从正态分布。计算过程似然函数计原创 2017-10-21 19:17:30 · 349 阅读 · 0 评论 -
EM算法--ML之六
EM算法基本概念Jensen不等式Jensen不等式是EM算法最重要的一个公式,具体如下: 最大似然估计最大似然估计在线性回归和逻辑回归中都说过,简单说,就是在估计过程中,估计最大可能的情况。二项分布的最大似然估计硬币投掷实验是解释二项分布的最好解说,投币实验过程中,进行N次独立实验,n次朝上,N-n次朝下,假定朝上的概率为p,那么p = n/NGMM算法高斯混合模型是EM算法非常典型的应用,高斯转载 2017-10-29 17:58:32 · 606 阅读 · 0 评论 -
LSTM及RNN简单总结
RNN及LSTMRNN可以记住之前的信息,将当前信息联系到之前的信息,比如预测“the cloud are in the sky”最后的词,我们并不需要其他的上下文就能知道是sky,这种场景中,相关信息和预测距离比较近,因此RNN可以有效利用先前的信息。 但是当信息距离比较长,比我我们看的一些电影,在前部份埋下伏笔,最后破案的过程中发现原来这地方是这个原因,原来如此,间隔非常远,如果用rcn...原创 2018-03-09 16:57:32 · 649 阅读 · 0 评论