
机器学习
汀桦坞
努力不是疲惫憔悴,而是眼里有光
展开
-
百度BML 图像分类-多标签在线API调试结果记录
调试工具:Postman{ "log_id": 4206097585808259010, "results": [ { "name": "Drama", "score": 0.5753621459007263 }, { "name": "Comedy", "score": 0.4507753252983093 } ]}原创 2021-01-20 13:23:05 · 246 阅读 · 0 评论 -
机器学习模型在线校验交互示例
EasyDL-表格数据预测Dataiku原创 2021-01-13 22:02:16 · 270 阅读 · 0 评论 -
百度EasyDL-表格数据预测试用示例
场景说明使用数据集iris,包含4个特征,预测值有3种取值,属于多分类问题体验地址:https://ai.baidu.com/easydl/app/201/20100/models使用步骤创建数据训练模型查看训练结果4.发布模型5.在控制台创建应用:在“公有云服务》应用列表”中创建应用6.配置授权:发布后的服务会出现在“公有云服务》权限管理”中,为之前创建的应用授权4. 获取Access_token:参考https://ai.baidu.com/ai-doc/REFERE原创 2021-01-13 21:06:09 · 820 阅读 · 0 评论 -
各机器学习平台视频建模功能汇总
产品类型 视频数据管理 模型场景 建模方式 交互方式 AI建模平台 EasyDL 专业版 不支持 不支持 不支持 不支持 EasyDL经典版 支持,但不支持标注 视频分类...原创 2020-08-07 19:23:11 · 487 阅读 · 0 评论 -
SageMaker 超参数优化作业
体验了华为ModelArts、百度BML&EasyDL、阿里云PAI以及亚马逊SageMaker的超参数优化功能,可以说,SageMaker在产品成熟度、AI建模流程的定义以及特性功能上都大幅的领先。由于国内区部分只能企业用户注册,所以使用的是国外区,记录了截图,以便后面网络不畅时可以了解:...原创 2020-08-03 20:08:33 · 631 阅读 · 0 评论 -
深度学习模型提升模型效果的常见方法
在训练集上表现不好,需要降低bias:调整超参数,如设置更深更宽的网络训练更长的时间选择其它特征学习函数(CNN、RNN、LSTM、GRU等)在验证集上表现不好,需要降低方差:引入正则化(如L2)引入dropout提供更多的训练数据基于数据增强,如图片翻转、裁剪、旋转等采集更多的数据调整数据的平衡性在测试集上表现不好,需要降低方差:需要使用更多的验证集超参数调优:α:Learning Rateβ:momentum中的参数β1,β2,ε:adm中的参数激活原创 2020-06-28 19:29:14 · 2096 阅读 · 0 评论 -
机器学习的行业与场景总结
行业与场景金融服务风险管理信用评分预测分析客户流失欺诈检测违约风险贷前客户评分贷后违约预测网点备付金智能预测保险索赔管理客户流失欺诈识别反洗钱异常检测行销信用评分客户流失欺诈识别潜在客户评分个性化广告优化零售客户流失广告优化个性化教育精准营销政务舆情监测汽车客群分析客流分析精准营销二手车交易欺诈检测原创 2020-06-11 21:15:40 · 393 阅读 · 0 评论 -
预训练的ONNX模型
获取地址:https://github.com/onnx/modelsNLP类:text/machine_comprehension视觉类:vision原创 2020-05-13 00:16:20 · 1201 阅读 · 1 评论 -
在Window10下基于Anaconda安装Tensorflow以及Keras并基于Spyder进行验证
这里写自定义目录标题环境信息安装目的安装过程安装验证环境信息Window 10Anaconda3(64-bit)安装目的安装Keras,并使用Tensorflow作为其后端。也就是说执行完安装后,Keras和Tensorflow都是可以使用的安装过程以管理员身份运行Anaconda Prompt。在默认的base环境中执行安装命令: conda install the...原创 2020-04-12 13:05:22 · 660 阅读 · 0 评论 -
百度EasyDL试用示例
场景说明基于EasyDL完成猫狗图像分类模型,在完成部署后,通过H5完成手机端验证,通过Postman对API进行了测试。通过上述流程完成对EasyDL功能的体验。体验总结EasyDL是以模型为中心的设计,但模型仅是个中间产物,不是很合理功能入口的逻辑不够清晰,模型的训练与部署在独立的EasyDL中实现,而服务的管理则要在百度智能云中的EasyDL中实现,这个逻辑有点感人。服务的运维监...原创 2020-03-26 23:48:14 · 130145 阅读 · 0 评论 -
深度学习各场景评估指标总结
下表总结了机器学习在常见场景下使用的评估指标:(PS:原文档包含截图,已上传到个人资源)类别 场景 场景描述 应用场景 图像 图像分类 识别一张图中是否是某类物体/状态/场景,适用于图片内容单一、需要给整张图片分类的场景 1、图片内容检索:定制训练需要识别的各种物体,并结合业务信息展现...原创 2020-03-17 18:16:34 · 2013 阅读 · 0 评论 -
《TensorFlow 2.0深度学习算法实战教材》学习笔记(九、卷积神经网络)
全连接网络的问题局部相关性网络层的每个输出节点都与所有的输入节点相连接,用于提取所有输入节点的特征信息,这种稠密(Dense)的连接方式是全连接层参数量大、计算代价高的根本原因。全连接层也称为稠密连接层(Dense Layer),当全连接层的激活函数????为空时,全连接层也称为线性层(Linear Layer):其中????????????????????(????)表示I 层的节点集合。基于距离的重要性分布假设称为局部相关性...原创 2020-02-12 18:48:05 · 1245 阅读 · 0 评论 -
《TensorFlow 2.0深度学习算法实战教材》学习笔记(八、过拟合)
机器学习的主要目的是从训练集上学习到数据的真实模型,从而能够在未见过的测试集上面也能够表现良好,我们把这种能力叫做泛化能力。提到了模型的表达能力,也称之为模型的容量(Capacity)。当模型的表达能力偏弱时,比如单层线性层,它只能学习到线性模型,无法良好地逼近非线性模型;但模型的表达能力过强时,他就有可能把训练集的噪声模态也学到,导致在测试机上面表现不佳的现象(泛化能力偏弱)。因此针对不同的...原创 2020-02-11 19:21:25 · 389 阅读 · 0 评论 -
《TensorFlow 2.0深度学习算法实战教材》学习笔记(七、Kears高层接口)
Keras 是一个主要由Python 语言开发的开源神经网络计算库。Keras 库分为前端和后端,其中后端可以基于现有的深度学习框架实现,如Theano,CNTK,TensorFlow,前端接口即Keras抽象过的统一接口API。那么 Keras 与tf.keras 有什么区别与联系呢?其实Keras 可以理解为一套搭建与训练神经网络的高层API 协议,Keras 本身已经实现了此协议,可以方便...原创 2020-02-11 18:29:25 · 689 阅读 · 0 评论 -
《TensorFlow 2.0深度学习算法实战教材》学习笔记(六、反向传播算法)
反向传播算法和梯度下降算法是神经网络的核心算法。导数与梯度导数本身是标量,没有方向,但是导数表征了函数值在某个方向Δ????的变化率。在这些任意Δ????方向中,沿着坐标轴的几个方向比较特殊,此时的导数也叫做偏导数(Partial Derivative)。对于一元函数,导数记为????????/????????;对于多元函数的偏导数,记为????????/????????1,????????/????????2, …等。偏导数是导数的特例,也没有方向。梯度下降算法:????′ =...原创 2020-02-11 12:34:54 · 324 阅读 · 1 评论 -
《TensorFlow 2.0深度学习算法实战教材》学习笔记(五、神经网络)
DL is essentially a new style of programming–“differentiable programming”–and the field istrying to work out the reusable constructs in this style. We have some: convolution, pooling,LSTM, GAN, VAE, m...原创 2020-02-10 23:15:47 · 1102 阅读 · 0 评论 -
《TensorFlow 2.0深度学习算法实战教材》学习笔记(四、TensorFlow 进阶)
合并与分割合并张量的合并可以使用拼接(Concatenate)和堆叠(Stack)操作实现,拼接并不会产生新的维度,而堆叠会创建新维度。选择使用拼接还是堆叠操作来合并张量,取决于具体的场景是否需要创建新维度。拼接 在TensorFlow 中,可以通过tf.concat(tensors, axis),其中tensors 保存了所有需要合并的张量List,axis 指定需要合并的维度。a = ...原创 2020-02-10 21:36:51 · 553 阅读 · 0 评论 -
《TensorFlow 2.0深度学习算法实战教材》学习笔记(三、TensorFlow 基础)
数据类型TensorFlow 中的基本数据类型,它包含了数值型、字符串型和布尔型。数值类型数值类型的张量是TensorFlow 的主要数据载体,分为:标量(Scalar) 单个的实数,如1.2, 3.4 等,维度数(Dimension,也叫秩)为0,shape 为[]向量(Vector) n 个实数的有序集合,通过中括号包裹,如[1.2],[1.2, 3.4]等,维度数为1,长度不定,...原创 2020-02-10 19:43:33 · 646 阅读 · 0 评论 -
《TensorFlow 2.0深度学习算法实战教材》学习笔记(二、回归问题和分类问题)
回归问题解析解与数值解解析解:通过严格的公式推导出的精确解称为解析解(Closed-form Solution)。但是对于多个数据点(???? ≫ 2)的情况,这时很有可能不存在解析解,我们只能借助数值方法去优化(Optimize)出一个近似的数值解(Numerical Solution)数值解:是采用某种计算方法,如有限元的方法, 数值逼近,插值的方法, 得到的解.别人只能利用数值计算的结果,...原创 2020-02-10 12:50:33 · 499 阅读 · 0 评论 -
《TensorFlow 2.0深度学习算法实战教材》学习笔记(一、人工智能绪论)
人工智能绪论人工智能,机器学习,神经网络,深度学习之间关系机器学习分类机器学习可以分为有监督学习(Supervised Learning)、无监督学习(UnsupervisedLearning)和强化学习(Reinforcement Learning)有监督学习 有监督学习的数据集包含了样本????与样本的标签????,算法模型需要学习到映射????????: ???? → ????,其中????????代表模型函...原创 2020-02-10 12:33:29 · 872 阅读 · 0 评论 -
将机器学习模型部署为服务
简单了解了mlflow和seldon两种方式,相关学习内容记录如下:mlflowhttps://github.com/mlflow/mlflow1、训练模型:$ python examples/sklearn_logistic_regression/train.py(会在后台训练,需要等待)2、将模型部署为服务:$ mlflow models serve --model-uri ru...原创 2019-10-12 18:32:31 · 1067 阅读 · 0 评论 -
各类机器学习框架保存的模型的格式
ONNX (.onnx, .pb, .pbtxt) Keras (.h5, .keras) Core ML (.mlmodel) Caffe2 (predict_net.pb, predict_net.pbtxt) MXNet (.model, -symbol.json) TensorFlow Lite (.tflite). Caffe (.caffemodel, .prot...原创 2019-07-13 09:30:57 · 3984 阅读 · 0 评论 -
在Jupyter Notebook中调用ML模型服务图像标题生成器
说明:写本文的目的主要是验证如何在Jupyter Notebook中通过API调用机器学习模型服务。1、环境说明CentOS7(部署在VMware Workstation Pro中的虚拟机)需要安装有docker2、前提条件:镜像准备部署了图形检测服务的镜像:codait/max-image-caption-generatorGithub地址:https://github.c...原创 2019-07-12 20:25:28 · 495 阅读 · 0 评论 -
使用PaddlePaddle.org工具构建PaddlePaddle文档
背景信息本节给出在Ubuntu 16.04.3系统中进行PaddlePaddle文档构建的方法。PaddlePaddle官网提供了PaddlePaddle.org工具的Docker镜像包,因此可以将本地包含源文档库的工作目录挂载到PaddlePaddle.org容器中,来进行文件构建。前提条件已在Ubuntu系统中安装Docker服务。Ubuntu系统中的8000端口未被占用。已完成paddlep...原创 2018-03-22 15:29:40 · 353 阅读 · 0 评论 -
sklearn训练模型、保存模型文件(文本、pkl)、模型文件转换(pkl2onnx)以及模型可视化
1.使用环境IDE:Jupyter Lab,使用Python2 kernel实现模型可视化:GraphViz,可以直接在jupyter中使用;Netron window版本模型转化:在onnx/onnx-ecosystem容器中进行2.代码创建并训练模型import matplotlib.pyplot as plt%matplotlib inlineimport...原创 2019-07-13 19:07:34 · 13888 阅读 · 2 评论 -
YellowBrick-聚类评估示例
Yellowbrick库是一个机器学习的诊断可视化平台,可用于引导数据科学家进行模型选择。它用一个新的核心对象扩展了SciKit学习API:可视化工具。可视化工具允许模型作为SciKit学习管道过程的一部分进行拟合和转换,在高维数据转换过程中提供可视化诊断。在机器学习中,聚类属于无监督机器学习算法,聚类是指将数据分组为类似的对象组成的多个模式的分析过程。聚类算法主要有两类:将相似数据点连接在一...原创 2019-07-18 21:10:11 · 2749 阅读 · 1 评论 -
在CNN网络中1*1卷积的作用
文章列表:https://www.cnblogs.com/CZiFan/p/9490565.htmlhttps://blog.youkuaiyun.com/weixin_31866177/article/details/86684203转载 2019-07-30 19:40:54 · 809 阅读 · 0 评论 -
一些知名科技公司的开源机器学习框架/平台
公司 框架 Github 百度 PaddlePaddle https://github.com/PaddlePaddle Linkdin Photon ML https://github.com/linkedin/photon-ml 360 Xlearning https://github.com/Qihoo360/Xlearning ...原创 2019-08-27 09:42:52 · 1838 阅读 · 0 评论 -
在Jupyter Notebook中实现图像检测服务的调用
1、环境说明CentOS7(部署在VMware Workstation Pro中的虚拟机)需要安装有docker2、前提条件:镜像准备部署了图形检测服务的镜像:codait/max-object-detectorGithub地址:https://github.com/IBM/MAX-Object-Detector该模型识别出COCO数据集中80个不同的高级对象类的图像中存在的...原创 2019-07-12 19:22:51 · 1049 阅读 · 0 评论 -
机器学习模型部署文章存档
非常全面(基于整个机器学习生命周期的说明以及相关部署框架):https://www.jianshu.com/p/ad2bfc08b9e2关于PMML和R模型:https://blog.youkuaiyun.com/mydear_11000/article/details/83000300一个PMML示例:https://github.com/pjpan/PPJUtils/tree/master/jav...原创 2019-05-11 16:48:49 · 242 阅读 · 0 评论 -
PaddlePaddle中数据的基本操作
Numpy 数组的基本操作import numpy as np# 生成二维数组和一维数组train_x = np.array([[1, 1], [1, 2], [3, 4], [5, 2]])train_y = np.array([[-2], [-3], [-7], [-7]])# 获取数组维度即轴的个数print train_x.ndim# 获取数组的各个维度的长度print ...原创 2018-03-28 17:55:14 · 2755 阅读 · 0 评论 -
PaddlePaddle线性回归示例
线性回归¶PaddlePaddle官方文档用波士顿房价数据集给出了线性回归的使用教程,由于使用的是内置的数据集以及本身模型的可解释性并不直观,因此本文使用自定义数据集和模型重现了线性回归的建模和预测过程,从而在如下方面进行较为清晰的展示:数据集的构造如何构造训练数据集如何构造测试数据集模型的构造本文使用最简单的一元线性回归模型y=3x+1,只要简单修改代码,也可以将其扩展为多元线性归回模型训练数据...原创 2018-03-28 16:13:18 · 981 阅读 · 0 评论 -
Python 中文文本分词(包含标点的移除)
背景信息本文为构建中文词向量的前期准备,主要实现中文文本的分词工作,并且在分词过程中移除了标点符号、英文字符、数字等干扰项,从而可以得到较为纯净的分词后的中文语料。详细代码import jiebaimport jieba.analyseimport jieba.posseg as psegimport codecs,sysfrom string import punctuationif ...原创 2018-04-10 20:21:38 · 19669 阅读 · 12 评论 -
Python从文本构建词典
背景信息本文实现基于输入英文文本的词典构建功能,构建的词典的key为文本中出现的单词,对应的value按如下规律取值:输入文本中词频最大的词对应的value取值为0,词频次最大的取值为1,依次类推,词频最低的词的value的取值为(字典的长度-1)。本文主要是为之后词向量训练做准备工作。说明:如果输入为英文文本,则可以直接处理;如果是中文文本,则需要先进行分词等预处理工作,并且最终输出的字典中,k...原创 2018-04-09 19:53:16 · 9869 阅读 · 0 评论 -
Python文本词频统计
背景信息本文实现英文文本词频统计,功能与Mapreduce中的wordcount是类似的。本文主要是为之后词向量训练做准备工作。本地实现词频统计函数,输入一个文本文件,最终以dict的形式返回词频统计信息。说明:如果输入为英文文本,则可以直接处理;如果是中文文本,则需要先进行分词等预处理工作。详细代码def word_count(file_name): import collections...原创 2018-04-09 18:59:35 · 6555 阅读 · 0 评论 -
PaddlePaddle常用镜像
PaddlePaddle镜像该镜像集成了PaddlePaddle深度学习平台,通过利用PaddlePaddle提供的API可以进行神经网络配置、模型训练等工作。 * 获取镜像:docker pull paddlepaddle/paddle * 启动容器:docker run -it paddlepaddle/paddle /bin/bashPaddlePaddle.org镜像该镜像...原创 2018-03-22 17:51:05 · 2708 阅读 · 1 评论 -
Azure Data Science Virtual Machine Linux的初步体验
背景信息微软Azure 提供1元免费试用的活动,可以使用$200的积分额度或30天试用期(先到为准)。由于之前工作的原因看过很多阿里云和微软Azure的产品文档,但一直没有使用过云计算产品,所以很多概念都没有验证过,借此机会,正好可以了解下。操作过程1、创建免费账号 登录https://azure.microsoft.com/zh-cn/free/,单击“免费开始”,跟着引导说明一步步操作即...原创 2018-03-08 17:34:22 · 435 阅读 · 0 评论 -
混淆矩阵与精确度、召回率、F1 Score
1、计算公式从混淆矩阵计算精确度、召回率、F1 Score的过程如下图所示,其中P和R即Precision和Recall:2、验证实验如下图为Azure ML自带的一个示例给出的模型评分结果:原始计算结果给出了混淆矩阵与Accuracy、精确度、召回率和F1 Score,图中插入的文字给出了这些评估值的计算过程,计算过程一目了然:原创 2018-01-26 22:42:54 · 7052 阅读 · 0 评论 -
《机器学习实战》学习总结(五)K-means算法原理
概述K-means分类算法属于无监督类学习算法。该分类算法不需要训练算法,直接对待分类点进行决策分类。算法原理算法实现过程如下所示:1、随机创建k个点作为起始质心(也不是完全随机的,创建的质心必须在整个数据集边界内部,即每个质心的每个每一维的取值必须在数据该维度的最大和最小值之间)2、将数据集中每个数据点分配到对应的质心 计算数据集中每个数据点与k个质心的距离,将数据点分配到距离其最近的质心...原创 2018-02-02 18:02:39 · 584 阅读 · 0 评论 -
《机器学习实战》学习总结(四)逻辑回归原理
概述逻辑回归要求数据类型为数值型。逻辑回归与线性回归的区别:逻辑回归的迭代过程就是为每个特征寻找一个系数,这些系数也叫做回归系数,如果直接计算∑θixi那么就是线性回归,要转化为逻辑回归,则需要将上述值通过sigmoid函数,即sigmiod(∑θixi),将一个连续值转化为一个概率值,从而根据门限判定所属的类别。逻辑回归模型:最简单的逻辑回归模型∑θixi即将mapFeatu原创 2018-02-02 14:56:07 · 394 阅读 · 0 评论