
Machine Learning
love music.
中山大学计算机博士在读,曾就职于腾讯等公司,目前从事AI多模态大模型研究。
展开
-
机器学习笔记(一)
之前有学了机器学习实战的一些学习方法,最近开始看吴恩达的机器学习视频。自己记录的笔记如下:第一课时 欢迎参加机器学习人工智能------->机器学习---------->(1)程序代码不能手动编写(自动飞机驾驶、手写识别、NLP、CV) (2)Medical records (...原创 2018-04-16 15:52:49 · 227 阅读 · 0 评论 -
YOLOV3 将自己的txt转为XML,再将XML转为符合YOLO要求的txt格式
参考链接:点击打开链接我自己的数据集格式为filename lable xmin ymin xmax ymax1 通过别的模板转换VOC数据集的xml格式为:<annotation> <folder>VOC2007</folder> <filename>000002.jpg</filename> //文件名...原创 2018-06-25 10:01:22 · 18517 阅读 · 9 评论 -
Boosting学习: Adboost、GBDT、Xgboost
原文链接:Boosting学习笔记(Adboost、GBDT、Xgboost)这篇博文讲解得很详细,看这篇即可。补充文章:1.GBDT详解与实例:GBDT详解2: Xgboost详解:xgboost...转载 2019-05-14 17:17:03 · 196 阅读 · 0 评论 -
Kaggle新手入门之路
本人最先是在网易云课堂上学完了吴恩达老师机器学习课程,并完成作业。其实那之后可以开始玩玩kaggle之类的比赛的,因为做比赛可以快速提升各方面的能力。但因为一些原因,后来又把吴恩达老师深度学习课程学完了。才开始慢慢玩比赛。短短两周,从零开始玩了一个房屋租金预测的比赛,接着学习本篇所转载的Kaggle入门竞赛。感觉学到了很多,有知识基础的话会稍微上手得快些。没的话也没关系,可以边做着玩边看看视频...转载 2019-05-24 20:43:12 · 805 阅读 · 0 评论 -
CART回归树及其实例
AI时代,机器学习算法成为了研究、应用的热点。当前,最火的两类算法莫过于神经网络算法(CNN、RNN、LSTM等)与树形算法(随机森林、GBDT、XGBoost等),树形算法的基础就是决策树。决策树因其易理解、易构建、速度快的特性,被广泛应用于统计学、数据挖掘、机器学习领域。因此,对决策树的学习,是机器学习之路必不可少的一步。转载的这篇博客写得很好,看这篇博客即可。原文链接:Regress...转载 2019-05-11 11:01:13 · 5225 阅读 · 0 评论 -
随机森林详解
原文链接:机器学习之随机森林(RF)详解 文章目录一、bagging算法1、简介2. bagging算法流程二、随机森林1、简介2、CART分类树的生成3、总结常用集成学习包括Bagging ,Boosting, Stacking三种。见https://blog.youkuaiyun.com/sinat_30353259/article/details/81...转载 2019-05-11 23:27:36 · 1729 阅读 · 0 评论 -
机器学习中缺失值的处理
做比赛过程中经常会有大量有缺失值的项,这时怎么处理缺失值很关键了。原文链接:机器学习中缺失值的处理缺失填充方法有哪些?平均值填充(Mean/Mode Completer)将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值;如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所...转载 2019-05-30 16:20:17 · 1069 阅读 · 0 评论 -
推荐系统中的数据稀疏和冷启动问题
原文链接:RS:推荐系统中的数据稀疏和冷启动问题如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。冷启动问题主要分为三类:(1) 用户冷启动:如何给新用户做个性化推荐的问题,新用户刚使用网站的时候,系统并没有他的行为数据;(2) 物品冷启动:解决如何将新的物品推荐给可能对它感兴趣的用户;(3) 系统冷启动:如何在新开发...转载 2019-06-18 15:54:23 · 11612 阅读 · 0 评论 -
使用anaconda安装kears,并在Jupyter Notebook使用
Anaconda中安装kears:创建一个虚拟环境:conda create --name myvenv接下来启动这个虚拟环境:activate myvenv检测目前安装了哪些环境变量:conda info --envs安装ipython:conda install mingw libpython安装theano:conda install theano...原创 2019-03-10 10:45:59 · 5009 阅读 · 6 评论 -
多层感知机(MLP)学习与总结
才知道MLP原来就是指神经网络,但是又与BP神经网络有些区别。关于MLP是什么,原文链接:多层感知机(MLP)学习与总结博客BP神经网络和感知器有什么区别?(转自他人回答)在Wiki中并没有BP神经网络这一个词条,而对反向传播则有如下定义:“反向传播是【误差反向传播】的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法”,所以BP神经网络指的是在...转载 2019-06-28 11:36:05 · 6581 阅读 · 0 评论 -
YOLOv3训练自己的VOC数据集
原文链接:点击打开链接 刚开始做深度学习检测任务,在尝试了https://github.com/rbgirshick/py-faster-rcnn和https://github.com/weiliu89/caffe/tree/ssd之后,正好看到YOLOv3出来,据说比RetinaNet快3.8倍,比SSD快3倍,速度很惊人,因为任务是要在TX1上做实时检测,所以赶紧试起来。1. da...转载 2018-06-25 09:47:55 · 2161 阅读 · 0 评论 -
jupyter notebook 架设在服务器 本地用浏览器访问服务器上的jupyter
1、官网下载anaconda,或者用pyenv下载都行,安装到服务器,个人用户的东西安装不要用sudo权限。(anaconda是一个很方面的python管理和集成包,里面包含一个python版本和对应的一些工具,其中就包括jupyter)2、接下来,我们需要在当前用户的根目录创建一个名为nbserver的配置文件。$ ipython profile create nbserver这将创...原创 2018-06-09 09:18:30 · 4338 阅读 · 3 评论 -
机器学习笔记(二)
根据观看吴恩达机器学习视频做的个人笔记,记录如下:第二章第六课时 模型描述过程如下:训练集--〉学习算法-->h假设函数线性回归: 先学习简单的一元线性回归,如h(x) = a + bx;m:训练样本数量 x:输入变量 y:输出变量第七课时 代价函数代价函数(也称平方误差函数、平方误差代价函数):可以测量假试函数的精准平方误差代价函数对于绝大多数回归问题是很有用的。其中,J代表代价函...原创 2018-04-26 22:29:08 · 206 阅读 · 0 评论 -
神经网络和反向传播算法推导
1.普通的机器学习模型:其实,基本上所有的基本机器学习模型都可以概括为以下的特征:根据某个函数,将输入计算并输出。图形化表示为下图:当我们的g(h)为sigmoid函数时候,它就是一个逻辑回归的分类器。当g(h)是一个只能取0或1值的函数时,它就是一个感知机。那么问题来了,这一类模型有明显缺陷:当模型线性不可分的时候,或者所选取得特征不完备(或者不够准确)的时候,上述分类器效果并不是特别喜人。如下...转载 2018-05-11 16:36:22 · 595 阅读 · 0 评论 -
吴恩达机器学习----逻辑回归代价函数求导过程
转载 2018-05-07 22:42:22 · 1853 阅读 · 4 评论 -
神经网络--反向传播详细推导过程
概述以监督学习为例,假设我们有训练样本集 ,那么神经网络算法能够提供一种复杂且非线性的假设模型 ,它具有参数 ,可以以此参数来拟合我们的数据。为了描述神经网络,我们先从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,以下即是这个“神经元”的图示:这个“神经元”是一个以 及截距 为输入值的运算单元,其输出为 ,其中函数 被称为“激活函数”。在本教程中,我们选用sigmoid函...转载 2018-05-16 21:21:54 · 54798 阅读 · 34 评论 -
PCA的数学原理
原文链接:点击打开链接算法及实例PCA算法总结一下PCA的算法步骤:设有m条n维数据。1)将原始数据按列组成n行m列矩阵X2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值3)求出协方差矩阵C=1mXXTC=1mXXT4)求出协方差矩阵的特征值及对应的特征向量5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P6)Y=PXY=PX即为降维到k维后的数据实例这里...转载 2018-06-04 14:53:34 · 132 阅读 · 0 评论 -
softmax函数详解
softmax函数softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类!假设我们有一个数组,V,Vi表示V中的第i个元素,那么这个元素的softmax值就是更形象的如下图表示:softmax直白来说就是将原来输出是3,1,-3通过softmax函数一作用,就映射成为(0,1)的值,而这些值的累和为1(满足概率的性质),那么我们就可以将它...原创 2018-05-23 20:43:13 · 1044 阅读 · 1 评论 -
svm常用核函数
原文链接:点击打开链接SVM核函数的选择对于其性能的表现有至关重要的作用,尤其是针对那些线性不可分的数据,因此核函数的选择在SVM算法中就显得至关重要。对于核技巧我们知道,其目的是希望通过将输入空间内线性不可分的数据映射到一个高纬的特征空间内使得数据在特征空间内是可分的,我们定义这种映射为ϕ(x)ϕ(x),那么我们就可以把求解约束最优化问题变为minαs.t.αi≥0,12∑Ni=1∑Nj=1αi...转载 2018-06-10 08:38:03 · 297 阅读 · 0 评论 -
机器学习——低秩矩阵分解中低秩的意义、矩阵填补、交叉验证
原文链接:点击打开链接一、低秩矩阵中低秩(Low-rank)的意义 1,问题的引出——对低秩矩阵分解中低秩的误解 论文《Privileged Matrix Factorization for Collaborative Filtering》是我在推荐系统研究方向上所读的第一篇论文(针对该篇论文,请看总结点击打开链接),当时对矩阵分解的理解是:评分矩阵X分解成两个隐特征...转载 2018-06-18 10:26:45 · 2705 阅读 · 0 评论 -
Jupyter Notebook 快速入门
转载链接:点击打开链接Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。在本文中,我们将介绍 Jupyter notebook 的主要特性,以及为什么对于希望编写漂亮的交互式文档的人来说是一个强大工具。在开始使用 notebook 之前,我们先需要安装该库。你可以在 Jupyter 官网上找到完整的步骤。...转载 2018-06-09 08:49:31 · 493 阅读 · 0 评论 -
使用anaconda安装tensorflow,并在Jupyter Notebook使用
参考链接: windows下:1.使用anaconda安装tensorflow (windows10环境) 2.利用Anaconda搭建TensorFlow环境并在Jupyter Notebook使用下面的内容是windows环境下安装,参考了上面这两个博客,可以看两面两个链接的图!一. 安装anaconda1. 下载地址:https://ww...转载 2019-02-11 19:52:25 · 9351 阅读 · 3 评论