
机器学习
xiaoa~
这个作者很懒,什么都没留下…
展开
-
贝叶斯定理及单词拼写纠错
贝叶斯简介:贝叶斯(约1701-1761) Thomas Bayes,英国数学家。贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,生不逢时,死后它的作品才被世人认可。贝叶斯要解决的问题:正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之...原创 2020-02-22 18:24:14 · 1308 阅读 · 2 评论 -
神经网络反向传播梯度推导及代码实现
一. 梯度推导本例中使用的激活函数为g(x)=sigmoid函数,损失函数使用的为逻辑回归的损失函数。方便公式简便,只有一个样本进行偏导计算,假设network共L层。使用 "" 表示向量乘积运算符,python中的numpy.multiply网络大致图梯度计算用的是链式求导法则1.隐藏层-->输出层权重参数求导2.隐藏层-->隐藏层(l-1层...原创 2019-10-05 09:14:11 · 1977 阅读 · 0 评论 -
开发和评价一个异常检测系统
解决问题:此次练习是为了检测服务器的吞吐量(throughput)和响应延迟(latency)是否有异常。问题背景:收集307个训练样本,猜测全都是正常的(但是实际中可能有几个异常点),所以需要用高斯分布检测异常样本。可以先用2D散点图查看分布情况(part1图),用测试机拟合高斯分布然后配合验证集的得到的epision找到异常点,最后应用到多维度的大数据中。开发和评价一个异常检测系统1...原创 2020-01-14 16:24:07 · 505 阅读 · 0 评论 -
PCA降维及SVD
1.相关背景我们在实际工作中经常需要分析不同组呈现来的成千上百个指标的数据,这些指标之间经常有一些相关性指标,比如厘米和英尺,这样的指标我们只要保留一个就可以,还有一些隐藏的高度相关的特征,以通过降维方法来进行数据预处理。2. 数据降维主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维方法,属于无监督学习。所谓降维就是将数据指标从高维度减到低维...原创 2019-12-20 17:21:26 · 502 阅读 · 0 评论 -
机器学习常用
数据处理 测试集验证集划 from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(pdData.iloc[:,:2], pdData.iloc[:,2:], test_size=0.3, random_state=0)标准化和归...原创 2019-10-16 17:36:56 · 546 阅读 · 0 评论 -
无监督学习-K-means算法对图片压缩
K-means算法是无监督的聚类算法,是将一个未标记的数据集聚类成不同的组实现步骤如下1.根据数据集随机选择K个点作为聚类中心 (cluster centroids)2.对于数据集中的每一个数据,找出与各个聚类中心的距离最小值,将其归为那个类3.计算每一个聚类中心的数据的平均值,将聚类中心移动到对应平均值处4.重复2和3步骤直至中心点不再变化from PIL import Imag...原创 2019-11-06 15:04:19 · 531 阅读 · 0 评论 -
sklearn中精确率、召回率及F1值得micro,macro及weighted算法
为什么要用精确率和召回率有这样一个训练集,1000个人参加了结直肠癌CRC的检测,实际有0.5%的人得了CRC(即5个人)。精确率和召回率的值在类偏斜的样本中能得到很好体现。...原创 2019-10-30 10:36:07 · 12706 阅读 · 2 评论 -
逻辑回归进行多分类进行手写识别(ex3)
思路X(5000,401) 5000个样本,400特征+1偏置项y(5000,1) 5000个样本对应的标签,即5000个样本对应的数字多分类的目的是随机输入一个样本,能够识别这个样本是数字几。因为逻辑回归是二分类任务,能够识别0或1,那多分类便可多次使用逻辑回归达到多分类的目的。比如本例的10个类别使用十次逻辑回归即可。for i in range(1, 11):...原创 2019-09-15 23:16:31 · 539 阅读 · 0 评论 -
线性回归的正则化实例及模型判定
吴恩达正则化课程的课后作业python实现from scipy.io import loadmatimport pandas as pdimport matplotlib.pyplot as pltimport numpy as np# =========== part 1 : load data =================data = loadmat('ex5d...原创 2019-09-08 22:41:29 · 576 阅读 · 0 评论 -
逻辑回归之参数训练、模型验证
training data的参数训练使用唐宇迪课程的数据集,代码思路import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport math,timeimport ospath = 'data' + os.sep + 'LogiReg_data.txt'pdData = pd.read_c...原创 2019-07-22 23:27:26 · 1959 阅读 · 0 评论 -
决策树简述-西瓜书笔记
泛化能力:机器学习对于没有见过的样本的识别能力欠拟合:模型复杂度偏低,在训练和验证时的效果都不好过拟合:模型复杂度偏高,模型在训练时效果很好,但是预测时效果很差,也就是对数据学习过度数据集决策树 是一种用于分类的机器学习算法,使得在划分过程中,决策树的分支节点多包含的样品尽可能属于一个类别,也就是结点的“纯度”变高。为了表示“纯度”,一般用“信息熵”,公式如下(样本集合D...原创 2018-11-30 19:01:23 · 479 阅读 · 1 评论 -
方向导数,梯度,梯度为何是函数值增长最快的方向
转自https://blog.youkuaiyun.com/myarrow/article/details/513324211. 基本概念方向导数:是一个数;反映的是f(x,y)在P0点沿方向v的变化率。偏导数:是多个数(每元有一个);是指多元函数沿坐标轴方向的方向导数,因此二元函数就有两个偏导数。偏导函数:是一个函数;是一个关于点的偏导数的函数。梯度:是...转载 2018-11-14 15:09:57 · 14118 阅读 · 0 评论 -
数学基础
向量积(矢积)与数量积(标积)的区别名称 标积 / 内积 / 数量积 / 点积 矢积 / 外积 / 向量积 / 叉积 运算式(a,b和c粗体字,表示向量) a·b=|a||b|·cosθ a×b=c,其中|c|=|a||b|·sinθ,c的方向遵守右手定则 几何意义 向量a在向量b方向上的投影与向量b的模的乘积 c是垂直a、b所在平面,且以|b|...原创 2018-11-14 14:13:04 · 419 阅读 · 0 评论 -
Python计算ROC
from sklearn.metrics import roc_curve, auc, mean_squared_error, accuracy_scoredef check_fit(truth, prob): """ truth: 真实的值 [1,0,1,1,1] prob: 预测的值 [0.9,0.7,0.8,0.2,0.3] """ fpr, tp...原创 2018-11-12 10:31:22 · 3676 阅读 · 0 评论 -
Pandas,numpy等记录
pandasapplydef fun(x): return x['name'][3] #使用的时候要注意series的索引,x['name'][3] != x['name'].iloc[3] ,x['name'][3]是取索引为3的值而不是第四行数字df.apply(fun,axis=1) # 这样是按照行来排。但是df.groupby(['name...原创 2018-09-11 15:37:18 · 263 阅读 · 0 评论 -
(转载)机器学习中的目标函数、损失函数、代价函数有什么区别
文章来源:https://www.zhihu.com/question/52398145作者:zzanswer链接:https://www.zhihu.com/question/52398145/answer/209358209来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 举个例子解释一下:(图片来自Andrew Ng Machine Learni...转载 2018-08-27 09:53:48 · 207 阅读 · 0 评论 -
难安装库集合
windows下可以下载dlib,然后pip 安装 https://pypi.org/simple/dlib/centos下参考:https://blog.youkuaiyun.com/whjay520/article/details/80841253原创 2018-08-22 19:16:58 · 253 阅读 · 0 评论