
机器学习-神经网络
努力的coder
坚持,为了梦想,一步又一步地往前走。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
xgboost
基本原理模型构造:每个叶子节点有多个样本。example:保险赔偿预测:https://www.kaggle.com/c/allstate-claims-severity/代码地址:https://github.com/create-info/ML_DL_resources/tree/master/machin...原创 2019-12-18 18:05:07 · 130 阅读 · 0 评论 -
svm支持向量机
1、SVM要解决的问题2、距离与数据的定义计算点到面的距离。3、目标函数4、目标函数求解再求极大值,因为之前根据KKT条件,将先求最大再去最小转换成了先求极小,再求极大。b=y-w...原创 2019-11-06 23:57:34 · 100 阅读 · 0 评论 -
EM算法
1、基本概念不断去更新初始A和B初始取正面的概率。2、EM推导3、GMM模型求出求出样本属于某一个分布的概率。4、GMM(高斯混合模型)代码https://github.com/create-info/ML_DL_resources/tree/master/machine%20learning...原创 2019-10-24 22:12:10 · 175 阅读 · 0 评论 -
PCA主成分分析
Principal Component Analysis用途:降维目标:提取最优价值的信息(基于方差)问题:降维后不知道数据表达的含义。1、原理如何找出一组合适的基:方差就代表数据的离散程度。是归一化后的结果。2、实例代码地址:https://github.com/create-info/ML_D...原创 2019-10-23 00:14:41 · 101 阅读 · 0 评论 -
线性判别分析(LDA)
LDA: Linear Discriminant AnalysisLDA分类的一个目标是使得不同类别间的距离越远越好,同一类别中的距离越近越好。每类样例的均值为:代码地址:https://github.com/create-info/ML_DL_resources/blob/master/TF-IDF_LDA_NB/LDA.ipynb...原创 2019-10-21 23:06:08 · 346 阅读 · 0 评论 -
DBSCAN算法
Density-Based Spatial Clusting of Applications with Nosie1、关键概念如果某个点的密度达到算法设定的阈值,则为核心点。即半径r的邻域内点的数量不小于minPts直接密度可达:如果点p在点q的r邻域内,且q是核心点,则成p到q是直接密度可达。密度可达:如果有点序列:q0,q1,...qk,对任意的qi,qi-1是直接密度可达的,...原创 2019-10-20 12:04:27 · 401 阅读 · 0 评论 -
k-means聚类
1、概述k-means属于无监督学习算法,没有样本标签。主要是基于距离将相似的样本聚成一类。优化目标:其中,k代表最终需要聚成的类别数。代表质心,即向量各位取平均。dist表示距离的度量,常用欧几里得和余旋相似度。 一般先进行标准化,将(x,y)转为0-1之间后再计算距离,因为x,y坐标的值可能很大或者很小。2、工作流程1)从数据样本中选择K个数据点,将其作为初始K个类的聚...原创 2019-10-14 22:40:14 · 442 阅读 · 0 评论 -
python文本数据分析
1、停用词,https://github.com/goto456/stopwords2、TF-IDF进行关键词提取词频TF= 某个词在文章中出现的次数 / 此文章中出现次数最多的词的出现次数逆文档频率IDF = log(语料库中文档总数 / (包含该词的文档数+1))TF-IDF = TF * IDF3、相似度计算:切词,词袋模型,word2vec等文本向量化。4、NLP...原创 2019-10-09 15:39:09 · 370 阅读 · 0 评论 -
贝叶斯公式
1、举例:一个学校有N名学生,其中男生占60%,女生占40%,男生全部传长裤,女生一半穿长裤,一半穿裙子,现在看见一个学生穿着长裤,看不清是男生还是女生。请问是女生的概率有大?count(女生穿长裤的人数) =N * P(女生)* P(长裤| 女生)count(穿长裤的总人数) = N * P(男生) * P(长裤 | 男生) + N * P(女生) * P(长裤 | 女生)P(...原创 2019-10-08 11:17:51 · 1400 阅读 · 0 评论 -
集成学习算法
https://github.com/create-info/ML_DL_resources/blob/master/ensemble.ipynb原创 2019-10-03 15:45:24 · 106 阅读 · 0 评论 -
自编码(Autoencoder)
自编码(Autoencoder):自编码是一种神经网络形式,属于神经网络的非监督学习,有时神经网络要输入大量的信息,比如输入的信息是高清图片,输入信息量可以达到上千万,让神经网络从上千万的信息中学习是一件非常吃力的工作,这时可以压缩一下,提取出原图片中最具代表性的信息,再把压缩后得到的信息放入神经网络中学习,这样神经网络学习起来将变得轻松。因此自编码就是将输入数据X1压缩再解压成X2,然后再通...翻译 2018-08-26 19:43:10 · 1178 阅读 · 0 评论 -
生成对抗网络GAN
生成对抗网络GAN(Generative Adversarial Nets):普通的前向传播神经网络、分析图片的卷积神经网络CNN、分析序列化数据,如语音,文字的循环神经网络,这些神经网络都是用来根据输入数据得到想要的结果。还有一种神经网络不是将输入数据对应出结果,而是凭空来捏造结果,这就是生成网络,GAN就是其中一种,这里的凭空并非什么都没有,而是根据一些随机的数来生成一些有意义的作品,如著名画...翻译 2018-08-26 20:19:10 · 277 阅读 · 0 评论 -
什么是机器学习?
机器学习是一帮计算机科学家想让计算机像人一样思考,然后研发出来的计算机理论。机器学习的萌芽诞生于19世纪60年代,20年前开始逐渐兴起。机器学习是跨学科的交融,包含了:概率论、统计学等学科。主要的机器学习算法: 1,通过分析大量数据和标签的监督学习。 2,只通过分析大量数据的非监督学习。 3,通过分析大量数据和少量标签的半监督学习。...原创 2018-08-22 23:10:18 · 176 阅读 · 0 评论 -
神经网络初识
计算机中的神经网络(人工神经网络)是:模拟生物神经网络的数学模型。输入层(input layer):负责从外部接收信息(如一段文本,一张猫的图片)。 输出层(output layer):负责将神经元对输入信息进行加工处理后的结果进行输出,该层输出的结果直接反映出计算机对输入信息的认知。 隐含层(hidden layer):是处于输入层和输出层之间的多个神经元组成的层面。该层可以有多层,其作...翻译 2018-08-25 21:19:46 · 403 阅读 · 0 评论 -
卷积神经网络(Convolutional Neural Network )
卷积神经网络是近年来兴起的一种人工神经网络结构,广泛应用于图像和语音识别,NLP,著名的AlphaGo也是用到这门技术。卷积神经网络是如何运作的呢? 以识别图片为例:我们知道神经网络是由一连串的神经层组成,每一个神经层中存在很多神经元,这些神经元也是神经网络识别事物的关键,每一个神经网络都有它的输入和输出层,当输入是图片的时候,实际上输入神经网络的是一堆堆的数字,而不是色彩缤纷的图案,卷积...翻译 2018-08-25 22:31:01 · 485 阅读 · 0 评论 -
循环神经网络(RNN)
循环神经网络(Recurrent Neural Networks ):想象有一组序列数据,Data0,Data1,Data2,Data3,在预测Result0的时候,我们会基于Data0,然后使用神经网络NN得到结果(Result),同样在预测Resulti时也会基于Datai,(i=1,2,3)使用同一个NN得到预测结果。如果Datai(i=0,1,2,3)之间是有一定关联的,那么,普通的神经网...翻译 2018-08-26 00:56:46 · 152 阅读 · 0 评论 -
机器学习epoch,batch,batchSize,step
epoch表示迭代周期,batchs表示批次数,一个epoch表示模型遍历并处理过所有样本一次;batch表示批次数,批次数 = 样本个数 /batchSize;batchSize表示批次大小,如bathSize=5,代表模型处理完5个样本后,进行一次前向传播和反向传播;step表示模型步数。step = epoch * batchSize。以上内容纯属自我总结,如有不对...原创 2019-04-14 23:15:04 · 4959 阅读 · 1 评论 -
逻辑回归实现信用卡欺诈检测
数据地址: https://www.kaggle.com/mlg-ulb/creditcardfraud#creditcard.csv代码地址:https://github.com/create-info/ML_DL_resources/blob/master/creditcard.ipynb原创 2019-09-19 12:48:44 · 261 阅读 · 0 评论 -
LSTM RNN
LSTM RNN:Long Short-Term Memory Recurrent Netural Networks,长短期记忆循环神经网络。是当前比较流行的RNN形式之一,RNN是在有序的数据上进行学习的,为了记住这些数据,RNN像人一样产生对先前发生事情的记忆,一般形式的RNN还是比较健忘的,这时LSTM RNN就出现了。LSTM与普通RNN相比,多了三个控制器,输入控制,输出控制以及忘记控制...翻译 2018-08-26 19:22:06 · 223 阅读 · 0 评论