
机器学习
鸿浪@大数据
在政府大数据中探索
展开
-
开源分布式挖掘平台介绍
由于项目中的机器学习系统集成了一个名为H2O的开源项目,顺便对其进行了学习了解。H2O是一个开源的、分布式的机器学习平台,可以支持深度学习、线性回归、k-means聚类等算法,支持R、Python接口调用,同时也提供界面化的模型训练和验证的交互过程(Flow),通过这个界面可以在不编写代码的情况下完成数据导入、模型训练、模型验证、模型导出等操作。下图是官方的系统架构图:从上图可以看出,平台...原创 2019-04-16 15:35:53 · 420 阅读 · 0 评论 -
机顶盒直播节目推荐算法
最近与某广电运营商交流用户画像与节目推荐,借机学习了在机顶盒上实现节目推荐的算法原理,这个算法是在一篇硕士论文中看到的,将其中关键的部分写下来,权当是自己的学习笔记。由于机顶盒是一个面向家庭所有成员收看电视的设备,仅仅根据播放历史进行推荐,无法准确匹配出当前正在收看电视成员其个人的收视喜好,带来推荐不准确的问题,因此,该算法通过将播放历史与当前时刻播放节目进行综合匹配,生成推荐列表的办法,改进推...原创 2019-07-18 15:04:27 · 694 阅读 · 0 评论 -
创意火花-聚类算法
聚类算法以前在考虑机器学习的应用场景时,都是按照端到端的思路,比如,客户流失分析,输入客户列表及相关特征,输出流失的名单。之前也尝试过利用逻辑回归、决策树等算法对客户流失进行预测,效果不是特别好,里面既有数据不全面的问题,同时也应该存在算法单一的问题。最近又学习了几个常用机器学习算法,包括支持向量机、逻辑回归、聚类算法等,虽然还是没有理解了算法的基本原理,还是不会调参,但仍然有了一点收获,机器...原创 2018-08-10 16:51:57 · 271 阅读 · 0 评论 -
学习笔记-神经网络(二)
今天把神经网络的代码运行起来了。由于代码是用Python2编写的,在Python3环境下有些错误,经过百度后成功解决,包括cPickle被pickle替换、pickle.load的编码等。运行结果如下图: 对于代码几个方法的理解如下:feedforward,根据输入计算整个神经网络的输出值。SGD,基于小批量数据方法训练神经网络,利用梯度下降算法计算神经元的权重和偏置,该方法是net...原创 2018-08-21 16:18:00 · 188 阅读 · 0 评论 -
学习笔记-神经网络(三)
两种代价函数的对比经过几天的反复学习,终于弄懂了二次代价函数和交叉熵代价函数的原理,也写了一点代码进行验证,虽然没有得出和书中相同的结果,而且也没有找到差异的原因,但仍然值得记录下来,如果将来有了更深入的理解,也可以回过头来看看最初所走的弯路。二次代价函数计算权重和偏置的公式 交叉熵代价函数计算权重和偏置的公式 利用上面几个公式,编写计算一个神经元权重和偏置的代码,验证两种代...原创 2018-09-04 17:25:13 · 138 阅读 · 0 评论 -
学习笔记-神经网络(四)
反向传播方程式推导对于反向传播方程式的后两个公式,也就是权重和偏置公式的推导过程如下: 其中,第l层第j个神经元的误差定义很关键:原创 2018-09-06 13:54:21 · 256 阅读 · 0 评论 -
学习笔记-神经网络(五)
可视化学习的准确度和代价为了更好的分析神经网络学习的效果,将学习的准确度(accuracy)和代价(Cost)进行了可视化处理,特别记录下来以备后用,代码片断如下:import numpy as npimport matplotlib.pyplot as pltimport matplotlib.ticker as mtickfig = plt.figure(figsize=(...原创 2018-09-17 16:02:46 · 214 阅读 · 0 评论 -
学习笔记-神经网络(六)
神经网络可以计算任何函数的可视化证明试着用Python编写了书中第4章例子的代码,进一步加深了对书中所讲的理解,代码如下:"""绘制各种权重和偏置下的S型函数图像,《神经网络与深度学习》P121的例子"""import numpy as npimport matplotlib.pyplot as plt#S型激活函数值def sigm原创 2018-09-19 10:41:35 · 174 阅读 · 0 评论 -
学习笔记-神经网络(七)
生成式模型在Michael Nielsen的《神经网络与深度学习》一书的第6章,介绍了几种深度学习模型,其中生成式模型印象深刻:一个就是DBN(即深度信念网络)是一种生成式模型。在前馈网络中,我们指定了输入 的激活函数,然后这些激活函数便决定了网络中后面的激活值。而像DBN这样的生成式模型可以类似这样使用,但是更加有用的可能就是指定某些特征神经元的值,然后进行“反向运行”,产生输入激活的值。...原创 2018-10-09 15:28:24 · 153 阅读 · 0 评论 -
基于开源产品的机器学习平台
规划了一个基于开源产品h2o的机器学习平台,基于租户模式,可以对委办局提供从构建模型到模型应用全流程的能力支撑。架构图如下:其中,平台基于H2O平台,支持多种数据来源,除了H2O平台的交互式建模界面,也支持Python、R等脚本语言构建模型;平台分类算法模型开发和算法模型应用两大部分,其中,算法模型开发主要是H2O所提供的功能,包括数据导入、训练模型、验证模型等功能,但要在数据分析、数据...原创 2019-08-13 10:56:24 · 1944 阅读 · 0 评论