
机器学习
文章平均质量分 83
zhang35
zhangjqfriend@gmail.com
展开
-
word2vec的算法思想详解(cbow+skipgram+negative sampling))
参考:https://easyai.tech/ai-definition/word2vec/https://jalammar.github.io/illustrated-word2vec/Word2vec 是 Word Embedding 词嵌入的方法之一。Word Embedding 就是将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量。Word2vec 有 2 种训练模式。CBOW(Continuous Bag-of-Words Model)通过上下文来预测当前值。相当于一原创 2022-03-09 07:37:38 · 759 阅读 · 0 评论 -
Kaggle Learn 数据泄露(data leakage)的几个例子
数据泄露数据泄露是指,在训练数据中包含目标信息,但在预测时没有可用的类似数据。这会使得训练数据(或者验证数据)效果比较好,但实际生产(预测)时效果特别差。有两种泄露类型:target leakage(目标泄露) 和 train-test contamination(训练测试污染)当测试集上的预测结果准确率特别高,比如95%以上时,要检查一下是否数据泄露了。target leakage预测包含未来才知道的数据时,会发生目标泄露。train-test contamination比如在切分训练集原创 2022-03-08 06:52:25 · 1520 阅读 · 0 评论 -
什么是MAP(mean average percision)——机器学习算法评价指标(带python源码)
什么是MAPAP:average percision先从AP说起。假如从5男5女当中找出所有女生,搜索结果如下:系统1:1234567女男男男女女女准确率:4/7召回率:4/5系统1:1234567女女女女男男男准确率:4/7召回率:4/5系统1和系统2的正确率和召回率相同,但明显第二个检索系统更好,因为还要考虑顺序。一个良好的检索系统当然希望越相关的排在越前面越好,因此就出现了AP这个概念。原创 2022-03-05 13:54:59 · 1516 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week11 学习笔记(Problem Description and Pipeline)
Photo OCR pipeline将机器学习问题分解成多个模块、流程。以下是例子:文字识别(Optical Character Recognition,OCR)Photo OCR问题流程:文本区域识别字符分段字符分类可以将该问题分成多个模块:遇到一个问题,要思考如何将问题分解成几个流程和步骤,以便团队协作。滑动窗口用一个人形窗口检查是否是一个人。根据步长移动窗口。步长为1像素时最精确,相当于遍历所有位置:然后用更大的方框扫描:最终能检查出行人:回到OCR问题,第原创 2022-02-24 22:07:43 · 459 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week10 学习笔记(Learning With Large Datasets)
sanity check大数据量带来高计算代价,所以首先得确定,是不是大数据量有帮助?检查Jcv 和 Jtrain 的学习曲线。如果如左图,有高方差,则说明过拟合了,增加数据量有帮助;如果如右图,增加数据量没有太大帮助。随机梯度下降法(Stochastic Gradient Descent)普通的梯度下降,当m很大时,下面蓝色方框的计算会耗时很高。普通的梯度下降,又称为batch gradient descent,每次都需要读取所有数据。这里就引出了随机梯度下降法。...原创 2022-02-24 17:07:16 · 1124 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week9 学习笔记(异常检测,推荐系统)
异常检测(Anomaly detection)建立模型p,类似表示属于正常情况的概率,小于某个值就认为它是异常的。应用场景诈骗检测异常零件检测数据中心电脑工作情况监控高斯分布 / 正态分布(Gaussian Distribution)参数估计给你一组x,假设它们服从高斯分布,计算出μ和σ的值。这样就能算出新成员的概率。密度估计假设x的各个特征是独立的,p(x)就可以用以下公式计算。计算p(x)的过程也被称为密度估计。异常检测算法利用x的密度估计,计算它的概率,看是否原创 2022-02-23 19:31:36 · 674 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week8 学习笔记(Unsupervised Learning)
无监督学习本周课程开始进入无监督学习。一个重要应用是聚类问题:K-Means算法随机找K个中心点(红×和蓝×),将样本标记为最近的中心点:计算每个类别里样本的平均值(mean),作为新的中心点:循环执行上面两个步骤,直到中心点不再变化,得到聚类结果:算法伪代码如下:注意:有可能出现某个类别中没有点的情况,这时通常就删掉这个中心点,就变成了k-1个类别。(如果还是需要k个类别,可以再重新随机出一个中心点)K-means优化目标这里的J也被称为Distortion函数。目标就是找原创 2022-02-14 23:41:13 · 1159 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week7 学习笔记(Support Vector Machines)
支持向量机SVM在线性可分的情况下,训练数据集的样本点中与分离超平面距离最近的数据点称为支持向量(support vector)。代价函数和逻辑回归比较相似:又称为大间隔分类器,能找到最佳的线性分类位置:向量内积的物理意义,相当于一个向量在另一个上面的投影长度的乘积:svm决策边界,核(相似度)函数SVM擅长解决线性不可分的分类问题。描述某个样本与标记点的相似度(距离)。相当于映射到一个更高的维度。高斯核函数高斯核函数用来测量一对样本的距离,例如(xi, xj)的距离。核原创 2022-02-12 14:50:29 · 1109 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week6 学习笔记(Advice for Applying Machine Learning)
评估假设函数如果发现训练出的模型结果不好,一般会从以下方面找问题:扩充训练集减少特征集使用额外的特征使用多项式特征增减λ测试集为了评估假设函数,一般会将数据集分为两部分:70%的训练集和30%的测试集。用训练集获得Theta,用测试集评估效果。测试集的误差计算方法:线性回归:分类:其中:验证集参考:一文看懂 AI 数据集:训练集、验证集、测试集(附:分割方法+交叉验证)验证集是用来调整超参数的,如果无需调整超参数,可以不使用验证集,只用训练+测试集。原创 2022-02-07 16:09:11 · 1192 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week5 学习笔记
神经网络的代价函数定义L = 神经网络总层数sl = 第l层的单元数(不包含bias unit)K = output units/classes的数量普通逻辑回归代价函数:神经网络代价函数:后面的正则化部分,θ矩阵的:列数=当前层的节点数(包含bias unit)行数=下一层的节点数(不包含bias unit)反向传播先正向推导:再反向求代价:D:delta矩阵,它正好是J(θ)的偏导函数有点复杂。暂不深究细节,先会用。反向传播和正向传播很像,只是换了个方向:原创 2022-02-06 10:18:43 · 853 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week4 学习笔记
背景当目标函数非线性时(比如下图明显需要一条曲线),就需要增加高次项来获得曲线,当特征数量比较多时,增加高次项会使特征数量爆炸式增长。比如图像识别问题,对50 * 50像素的图像,如果将每个像素作为特征,增加二次特征就会产生约3 * 10 ^ 6个特征(C22500 = 2500 * 2499 / 2)这种情况下,若要使用普通逻辑回归学习所有特征,计算量就过大了。此时用神经网络学习这种复杂的非线性假设函数,就比较合适了。神经网络首先学习几个术语:dendrite: 树突(输入)cell原创 2022-02-04 16:23:56 · 1333 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week3 学习笔记
分类问题例如对肿瘤的分类问题:0:良性1:恶性二元分类问题(binary classification problem)只需要两个结果:0和1。有时候也用-和+表示,所以y(i) 也被称为标签。逻辑回归一些术语:asymptotes 渐近线使用sigmoid函数g(z)将线性函数h(x)的值域映射到(0, 1),g(z)的函数图:新的h(x)就表示结果为1的概率。例如肿瘤分类的例子,假如hθ (x) = 0.7,就表示输出结果为1,即肿瘤为恶性的概率为70%。相应的,输出结果为0原创 2022-02-03 15:49:21 · 1040 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week2 学习笔记
多维特征(Multiple Features)多元线性回归,即包含多个变量,比如房子的房龄、面积、房间数等,标记如下:假设函数就变成了:可以理解为:θ0表示基础价格θ1为每平方价格,X1为平米数θ2为每层价格,X2为层数假设函数简写为:梯度下降就变成了:左图是之前单变量时的梯度下降,右图是多变量的梯度下降,二者对比如下:特征值预处理当几个特征的量级相差过大时,会出现左图的情况,收敛路径复杂且缓慢;最好将特征都缩放到接近[-1, 1],就能像右图一样收敛形成圆润的等高线,加快原创 2022-02-02 17:21:40 · 1661 阅读 · 0 评论 -
Machine Learning - Coursera 吴恩达机器学习教程 Week1 学习笔记
机器学习的定义Arthur Samuel 传统定义Arthur Samuel: “the field of study that gives computers the ability to learn without being explicitly programmed.” This is an older, informal definition.让计算机无需明确编程,就有学习能力。Tom Mitchell 现代定义Tom Mitchell: “A computer program is s原创 2022-02-01 17:49:01 · 1383 阅读 · 0 评论