
机器学习算法
文章平均质量分 65
一杯拿铁go
好记性不如烂笔头
展开
-
Hoeffding不等式剪枝方法
对于两个物品的相似度,每次更新都能够得到一个新的相似度,这个新的相似度可以看做是一个随机变量,那么这个随机变量就有一个期望值。一旦物品之间的相似度可以以较高的置信度确认,它已经在期望值附近小幅度波动,就没必要再去更新了。如果进一步确定是一个比较小的相似度,甚至可以之间去掉这个物品对,其相似度不再参与计算更新。有了上面的表那么在一个物品对的更新次数已经达到最少更新次数时,且满足相似度误差时就可以不用再更新了。在实时推荐系统中就是历次更新得到的相似度平均值,公式中的n是相似度的更新次数。是随机变量X的期望值。原创 2023-02-19 22:48:50 · 461 阅读 · 0 评论 -
关于指数函数的一些基础
一,指数函数如下图所示:(1)由指数函数y=a^x与直线x=1相交于点(1,a)可知:在y轴右侧,图像从下到上相应的底数由小变大。图3 图像随底数变化关系图3 图像随底数变化关系(2)由指数函数y=a^x与直线x=-1相交于点(-1,1/a)可知:在y轴左侧,图像从下到上相应的底数由大变小。(3)指数函数的底数与图像间的关系可概括的记忆为:在y轴右边“底大图高”,想象一下2的2次幂和...原创 2018-10-22 15:41:16 · 2699 阅读 · 0 评论 -
指数函数,幂函数记录
1,指数函数底越小,曲线越缓;底越大,曲线越陡。原创 2020-07-03 10:51:08 · 477 阅读 · 0 评论 -
CF、MF、FM、FFM浅析
一,CF(协同过滤)协调过滤的目的都是预测用户是否喜欢某个物品1,userCF(基于用户的协同过滤)‘人以群分’。步骤:a,通过用户-物品行为历史信息,构建共现矩阵。行坐标为用户,纵坐标为物品;b,找到与用户x兴趣最相似的top n用户。通过用户购买物品的行为转变成用户向量,然后通过cosine距离或者是皮尔逊相关系数得到top n。c,然后根据相似用户对物品p的喜爱程度来决定是否将物品推荐给用户x。公式如下,物品p推荐给用户u的概率:Ru,p=∑sϵS(wu,s∗Rs,p)∑sϵSwu原创 2022-05-16 11:41:53 · 3733 阅读 · 0 评论 -
FM/FFM/wide&deep/deepFM笔记
一,FMFM在LR的基础上,增加了交叉特征,表达能力更强。FM为每个特征学习一个隐向量,在特征交叉时,使用两个特征隐向量的内积作为交叉特征的权重。FM的模型是:y~=w0+∑i=1nwixi+∑i=1n∑j=i+1n<vivj>xixj\widetilde{y}=w _{0}+\sum_{i=1}^{n}w _{i}x _{i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n}<v_{i}v_{j}>x_{i}x_{j}y=w0+i=1∑nwixi+i原创 2020-11-04 15:37:51 · 854 阅读 · 0 评论 -
【机器学习】从决策树到GBDT(二)
一,集成学习决策树的集成学习分成两大类,Bagging和Adaboost。AdaBoost中着重介绍boosting。Bagging的策略:(1)从样本集中重采样(有重复的)选出n个样本;(2)在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等);(3)重复以上两步m次,即获得了m个分类器;(4)将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类。在Bagging方法中,每个学习器之间彼此是相互独立的,这样的特点使得Bag原创 2020-10-30 11:11:10 · 187 阅读 · 0 评论 -
均方误差、平方差、方差、均方差
简述均方误差、平方差、方差、均方差、协方差原创 2017-10-15 11:21:20 · 10720 阅读 · 0 评论 -
【机器学习】常见的损失函数
机器学习中常见的损失函数一,回归问题1,MSE(均方误差)(Mean Square Error)均方误差也叫方法损失函数或者最小二乘法作为机器学习中常常用于损失函数的方法,均方误差频繁的出现在机器学习的各种算法中,但是由于是舶来品,又和其他的几个概念特别像,所以常常在跟他人描述的时候说成其他方法的名字。均方误差的数学表达为:如公式所示,通过计算每个预测值和实际值之间的差值的平方和再求平均,机器学习中它经常被用于表示预测值和实际值相差的程度。平方损失函数是光滑的,可以用梯度下降法求解,但是,当预原创 2020-10-16 21:36:23 · 1082 阅读 · 0 评论 -
深度学习常见的激活函数
一,什么的激活函数激活函数是神经网络中对数据做非线性变换的函数。如下所示:输入的x值,经过权值相乘合并之后再经过‘激活函数’得到一个映射值。二,激活函数的作用因为线性的数据表达过于单一,若没有激活函数,再多层的网络也不过是多套了几层的线性函数而已。以分类为例,线性函数只能处理线性可分的问题,对于复杂点的就无能为力了。而使用激活函数对线性数据改变之后,数据就是非线性的了。理论上网络层数足够的话可以拟合出任意函数,可以解决任何问题。三,常用的激活函数1,sigmoid函数这是神经原创 2020-10-16 17:15:33 · 294 阅读 · 0 评论 -
Doc2vec的原理以及实战demo
一,测试demo代码如下:from gensim.test.utils import common_textsfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentdef doc2vec_demo(): # 得到文本训练数据 documents = [TaggedDocument(doc, [i]) for...原创 2019-08-14 15:24:07 · 1160 阅读 · 0 评论 -
【机器学习】SVM漫谈
SVM对于中小规模的数据来说是非常好的模型。由于其可以用数学严谨的推导出结果,可解释性比较强,所以在工业上应用的比较广。一,SVM的推导简单起见先考虑SVM在线性的二分类中的应用。 如图1所示svm的目的就是找到一条直线能够很好的将正、负样本“很好的”分开。这个“很好的”是指对于样本的鲁棒性比较好,及时样本点受到一点噪声也不会影响分类的结果,比较直观的看就是正负样本点离分割线的距离比较远。这就是s原创 2017-10-16 10:37:16 · 579 阅读 · 0 评论 -
【西瓜书笔记三】贝叶斯分类器
一,贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。具体来说,若目标是最小化分类错误率,则误判损失可写为:不难看出,欲使贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x)。然而,在现实任务中这通常难以获得。从这个角度来看,机器学习所要实现原创 2017-08-26 16:36:17 · 2313 阅读 · 0 评论 -
【西瓜书笔记二】决策树
一,基本流程决策树是一类常见的机器学习方法,是基于树结构来进行决策的。决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树。其基本流程遵循简单而直观的“分而治之”策略,如下所示:二,划分选择决策树学习的关键在于如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一个类别,即结点的“纯度”原创 2017-08-26 15:41:26 · 2952 阅读 · 0 评论 -
TF--三 卷积神经网络与图像应用
一,Image classification popeline一般来说想要使用纯编程的方式来让机器识别一张图片中的东西是非常困难的,常用的方法就是使用一些算子来获取图像中的很多的特征,然后使用分类算法如SVM等进行分类,这样的话需要识别率不高。目前比较流行的方法是用数据驱动的方法来识别图片中的物体。比如使用卷积神经网络的方式来识别,通过向网络输入若干同类型的图片来让模型最终能识别出该类图片。原创 2017-08-16 20:57:16 · 1186 阅读 · 1 评论 -
TF-- 二 数据拟合的一般步骤
一,简单的线性回归1.数据准备实际的数据大家可以通过pandas等package读入。此处的数据是自己造的。%matplotlib inlineimport numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltplt.rcParams["figure.figsize"] = (14,8原创 2017-08-16 21:07:31 · 1192 阅读 · 1 评论 -
win10下安装pyspark
win7、win10下的pyspark的安装原创 2017-08-15 23:25:43 · 31522 阅读 · 12 评论 -
训练样本的处理以及注意事项
官网:https://scikit-learn.org/stable/index.html在经过了数据的筛选,数据的清洗、数据的特征处理,给数据加标签之后就得到了数据的训练样本了。在得到训练样本之后还是要对训练样本做进步一的处理。需要考虑的问题有,训练样本的正负样本数的比例是怎么样的。比如在实际的应用场景中正负样本的比例的10:1,那么在训练数据的时候要保证训练数据和测试数据的正负样本比例...原创 2020-03-10 16:33:38 · 1669 阅读 · 0 评论 -
doc2vec的一些操作
1,从doc2vec模型中提取出word2vec向量表,代码如下:from gensim.test.utils import common_textsfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentdocuments = [TaggedDocument(doc, [i]) for i, doc in enumerate(c...原创 2020-02-27 11:19:43 · 642 阅读 · 0 评论 -
【python】生成笛卡尔积(交叉表)DataFrame和numpy
有文件A:,B:,希望通过A,B生成C: 就是笛卡尔积操作。 一,当数据在numpy数组中,数据为:A=['a','b','c','d']B=['1','2','3','4']其实方法一的思想很简单粗暴:A,B元素存储在list中,将A中每个元素复制len(B)次,然后将之与B进行行合并;得到的结果再与result列合并。最后输出result原创 2017-11-03 17:39:15 · 17370 阅读 · 2 评论 -
【机器学习算法】线性回归以及手推logistic回归
一,基本形式:给定d个属性描述示例 x = (x1;x2;...;xd),其中xi表示的是第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:其中 w = (w1;w2;...;wd),w,b学得之后,模型就可以确定。二,线性回归对于给定的数据集 D,线性回归试图学得一个线性模型以尽可能的预测实值输出标记。现在假定数据集D中的数据属性原创 2017-08-26 12:07:03 · 4772 阅读 · 0 评论 -
【C++】反转单链表(面试的时候屡次被问到)
问题:已知一个单链表,将这个单链表反转过来,并返回反转之后的单链表。 思想:使用头插法的思想,将原本单链表中的数据反转,即每次插入数据的时候,不是将数据放到链表的末尾而是放到链表的头部。原创 2017-11-01 21:58:29 · 624 阅读 · 0 评论 -
【机器学习算法】从决策树到GBDT(一)
鉴于最近面试总是被问到这类问题,所以这次就是想写一个从决策树到GBDT这一系列的博文。一方面加深记忆,另一方面也供以后方便回头看。再者若是能够为也正在机器学习这条路上摸爬滚打的朋友有一点助益就更圆满了。本博客是第一部分,主要介绍一下决策树的基础:特征选择。 决策树算法主要有三部分: 特征选择 决策树的生成 决策树的剪枝 而特征选择是决策树最重要的部分也是最耗时的部分。这部分的主要作用是选择原创 2017-10-13 19:45:13 · 585 阅读 · 0 评论 -
【机器学习】SVM浅谈
SVM对于中小规模的数据来说是非常好的模型。由于其可以用数学严谨的推导出结果,可解释性比较强,所以在工业上应用的比较广。一,SVM的推导简单起见先考虑SVM在线性的二分类中的应用。图1如图1所示svm的目的就是找到一条直线能够很好的将正、负样本“很好的”分开。这个“很好的”是指对于样本的鲁棒性比较好,及时样本点受到一点噪声也不会影响分类的结果,比较直观的看就是正原创 2017-05-09 14:20:39 · 871 阅读 · 0 评论 -
【机器学习】浅谈聚类算法
聚类是一种非监督式学习算法,聚类不要求源数据集有标签,聚类一般应用于做数据探索性分析,聚类算法的结果是将不同的数据集按照各自的典型特征分成不同类别,不同人对聚类的结果解读可能不同;本文主要讲述了k-means,k-means++以及学习向量量化原创 2017-05-08 16:01:33 · 652 阅读 · 0 评论 -
浅析贝叶斯
贝叶斯定理的关于随机事件A和B的条件概率(或边缘概率)的一则定理,其主要陈述的是在通过A条件下B发生的概率(即P(B|A))来求解B条件下A发生的概率(即P(A|B))。其基本公式如下:朴素贝叶斯的思想基础是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。 一,符号约定: x={a_1,a_2,…,a_m} 为一个待分类项,而a为原创 2017-04-21 15:44:49 · 344 阅读 · 0 评论 -
【面经】本周面经流水账
本周的各种面试,公司有大有小,面试时间有多又少,面试难度有易有繁,思想深度有浅有深,面试官有水有神。原创 2017-11-18 15:49:47 · 485 阅读 · 0 评论 -
【机器学习算法】LR以及正则项
LR算法以及L1、L2正则项小议logistic回归基于线性分类WT,使用sigmoid函数将线性函数映射到(0,1)空间中去。于是有假设H@(x),表示的是x发生的几率。若结果值大于0.5则表示是正样本否则是负样本。原创 2017-11-10 20:19:09 · 6470 阅读 · 0 评论 -
算法的评价标准:ROC,假阳性,mape
1,ROC曲线去医院做检查化验单或报告单会出现(+)跟(-),其分别表型阳性和阴性。比如你去检查是不是得了某种病,阳性(+)就说明得了,阴性(-)就说明没事。 科研人员在设计这种检验方法的时候希望知道,如果这个人确实得了病,那么这个方法能检查出来的概率是多少呢(真阳率)?如果这个人没有得病,那么这个方法误诊其有病的概率是多少呢(假阳率)? 如下表所示: 金标准就是实际中的病人阳性和阴性的情原创 2017-11-19 15:39:50 · 6984 阅读 · 0 评论 -
【机器学习】使用Hadoop Streaming来用Python代码完成MapReduce
介绍了,Hadoop Streaming原理 ,map-reduce的重点,最后通过Hadoop Streaming来处理经典的词频统计的问题,并给出了map和reduce阶段的代码。原创 2017-11-27 14:10:15 · 1186 阅读 · 0 评论 -
【机器学习】pandas中Series和DataFrame
一,Series 1,Series的定义 Series类似于一个字典,可以通过index参数定义其“key”值。Series使用pandas.Series来定义。 如下所示:s = pd.Series([7, "Beijing", 2.17, -12345, "Happy"], index=["A", "B", "C", "D", "E"])print(s)结果为:A 7原创 2017-11-27 17:24:34 · 2131 阅读 · 0 评论 -
【机器学习】pyspark中RDD的若干操作
pyspark中RDD的若干操作原创 2017-11-28 10:49:03 · 13087 阅读 · 2 评论 -
威尔逊区间
由于工作原因要使用威尔逊区间来计算POI与TD之间的分数,现在总结一下。 对于召回的一些数据如何给这些数据来排名,然后根据这个排名来显示数据,这就需要使用“威尔逊区间”了。首先我们讨论的情况是每个项目只有两种选择,且项目之间是相互独立的,就是项目符合“二项分布”的。如[1]中所举的例子中可以看出,无论得分情况为得分 = 赞成票 - 反对票还是得分 = 赞成票 / 全部原创 2017-12-20 19:47:17 · 5245 阅读 · 0 评论 -
统计数据
统计数据时要注意的几个点:统计数据的维度和粒度,如时间维度,数据范围,统计效果。时间维度:统计的起始时间;数据范围:统计的是纯搜索query、sug、热词;统计效果:统计的是uv/gmv/订单统计效果要根据最终的目标来决定统计哪一个。...原创 2019-07-15 14:27:39 · 262 阅读 · 0 评论 -
Word Embedding资料整理
最近要分享一次Word Embedding,虽然对这个东西早就知道,但是一直没有一个详细的梳理,趁着这次机会好好梳理一下这方面的东西。在网上看到正好有人写了相关的文章,就拿来学习了一番,再加上一些作者不屑于写的知识。word Embedding技术背景 word2vec word Embedding现今的发展 进化从未停止一,word Embedding技术背景 万物皆可Em...原创 2019-08-03 17:27:48 · 415 阅读 · 0 评论 -
pip install - PermissionError: [Errno 13] Permission denied
pip install - PermissionError: [Errno 13] Permission denied当运行Anaconda,安装sklearn的的时候出现这个错误CondaHTTPError: HTTP None Nonefor url <None>原创 2017-07-24 10:26:19 · 18192 阅读 · 0 评论