
机器学习
文章平均质量分 74
Shingle_
Done is better than perfect.
展开
-
关于广告、推荐中的CTR的学于思
CTRCTR预测就是对用户是否点击广告进行预测,其实可以看成二分类问题,即点和不点。logistics回归(LR):logistics输出的是概率,可以较为直观的解释用户点击广告的几率计算目标函数的复杂度O(N),计算速度快,所以比较适合处理大数据没有考虑特征之间的相关性,没有特征进行组合为了提高模型性能,在模型训练之前,需要做很多的特征工程GDBT+LR:使用...原创 2018-10-10 21:08:47 · 1687 阅读 · 0 评论 -
机器学习中的正则化方法
参数范数惩罚L1 L2 regularization正则化一般具有如下形式:(结构风险最小化)其中,第一项是经验风险,第二项是正则化项,lambda>=0为调整两者之间关系的系数。正则化项可以取不同的形式,如参数向量w的L2范数:假设以平方差为损失函数,则优化目标为:minw∑i=1m(yi−wTxi)2+λ||w||22minw∑i=1m(yi−wTxi...原创 2018-08-24 19:05:25 · 1296 阅读 · 0 评论 -
机器学习中的特征工程
真实中,往往会发现机器学习中最有趣的挑战往往会包含一些特征工程的内容。特征生成特征生成就是从各种角度和侧面来刻画事物。通过对问题的理解,构造一些特征希望机器学习算法可以采纳。特征与特征间的运算补集笛卡儿积交集加、减、乘、除运算特征选择从给定的特征集合中选出相关特征子集。特征选择过程要确保不丢失重要特征,去除冗余特征。包含两个环节:子集搜索、子集评价。理...原创 2018-08-24 13:32:32 · 706 阅读 · 0 评论 -
机器学习中的参数估计方法
概率模型的训练过程就是参数估计(parameter estimation)的过程。对于参数估计,统计学界的两个学派分别提供了不同的解决方案:频率主义学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值贝叶斯学派(Beyesian)则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观测到的...原创 2018-08-24 13:31:31 · 4189 阅读 · 0 评论 -
文本处理—LSA、 LDA
几个流行的VSM算法:Term Frequency * Inverse Document Frequency, Tf-Idffrom gensim import corpora, models, similaritiesdictionary = corpora.Dictionary(texts)corpus = [dictionary.doc2bow(text) for te...原创 2018-08-27 13:07:45 · 3145 阅读 · 0 评论 -
机器学习中的优化问题
最优化问题:解析解存在:最优解可以由公式简单计算没有解析解 数值计算启发式方法例:朴素贝叶斯、隐马尔可夫:最优解即极大似然估计值,可由概率计算公式直接计算感知机、逻辑回归、最大熵模型、条件随机场:利用梯度下降法、拟牛顿法等。无拘束最优化问题的解法。支持向量机:解凸二次规划的对偶问题。有序列最小最优化算法等。决策树:启发式算法。特征选择、生成、剪枝是启发式地进行正则化的...原创 2018-08-24 13:30:28 · 2912 阅读 · 0 评论 -
机器学习中的性能度量
回归任务均方误差(Mean squared error, MSE)E(f;D) = \frac{1}{m} \sum_{i=1}^m(f(x_i)-y_i)^2均方根误差(Root-Mean-Squared-Error, RMSE)E(f;D) = \sqrt{\frac{1}{m} \sum_{i=1}^m(f(x_i)-y_i)^2} = \sqrt{MSE(\...原创 2018-08-24 13:25:30 · 640 阅读 · 0 评论 -
机器学习中的损失函数
监督学习问题是在假设空间中选取模型作为决策函数,对于给定的输入X,由f(x)给出对应的输出Y,这个输出的预测值可能与真实值一致或不一致,可以用损失函数(loss function) 或 代价函数(cost function) 来度量预测错误的程度。0-1损失函数:f(x)={1,Y≠f(X)0,Y=f(X)f(x)={1,Y≠f(X)0,Y=f(X)f(x)=\left\{\b...原创 2018-08-24 13:22:38 · 677 阅读 · 0 评论 -
K均值算法(K-means)
K均值聚类容易实现,但是可能收敛到局部最小值,影响K-means效果的因素:K值的选择初始化质心距离度量优:只需要计算数据点与聚类中心的距离,其计算复杂度只有O(n)。缺:十分依赖于初始给定的聚类数目;同时随机初始化可能会生成不同的聚类效果,所以它缺乏重复性和连续性。伪代码:创建k个点作为起始质心(通常是随机选择)当任意一个点的簇分配结果发生改变时: 对数据集...原创 2018-08-23 01:03:55 · 2604 阅读 · 0 评论 -
聚类
聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。聚类算法涉及了2个基本问题——性能度量和距离计算(详见单独Blog)维度灾难在开始聚类前,先了解一个概念——维度灾难。高维的欧式空间具有一些非直观的有时被称为“维度灾难”的性质。非欧式空间也往往具有同样的反常情况。“灾难”的一个表现时,在高维空间下,几乎所有的点对之间的聚类都差不多相等。...原创 2018-08-23 01:03:01 · 1509 阅读 · 0 评论 -
无监督学习
无监督学习只处理“特征”,不操作监督信号。大多数尝试是指从不需要人为注释的样本的分布中抽取信息,如密度估计、学习从分布中采样、学习从分布中去噪、寻找数据分布的流形、将数据中相关的样本聚类聚类KMeans降维主成分分析(PCA)奇异值分解(SVD)无监督深度学习自编码机(AutoEncoder):自编码器和数据压缩算法背后的逻辑差不多,用一个子集...原创 2018-08-23 01:02:23 · 822 阅读 · 0 评论 -
Softmax数值不稳定问题
数值计算上溢和下溢计算机通过有限数量的位模式来表示无限多的实数,总会引入一些近似误差。如果涉及时没有考虑最小化舍入误差的累积,在实践时可能会导致算法实效。下溢:当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时会表现出质的不同:避免零除避免取0的对数上溢:大量级的数被近似为无穷时发生上溢。必须对上溢和下溢进行数值稳定的一个例子...原创 2018-08-24 20:31:33 · 4152 阅读 · 0 评论 -
奇异值分解(Singular Value Decomposition, SVD)
提取信息的强大工具。简化数据、去除噪声、提高算法结果。利用SVD实现,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除了噪声和冗余信息。SVD时一种强大的降维工具,可以利用SVD来逼近矩阵并从中提取重要特征,通过保留矩阵80%~90%的能量,就可以得到重要特征并去掉噪声。SVD的应用这里先介绍SVD可能的用途,下一节介绍SVD相关知识。隐语义索引SVD的历...原创 2018-08-24 20:37:20 · 1205 阅读 · 0 评论 -
关于信息检索(IR)、搜索引擎的学与思
平台建设(工程、数据、算法)面对大数据业务挑战,AI·OS至多能起到30%的作用,随后是算法解决30%+,其余的靠产品和机缘,只不过AI·OS的30%是个前提条件,AI·OS发展的核心线索是优化算法迭代效率。TPP推荐业务平台、RTP深度学习预测引擎、HA3搜索召回引擎、DII推荐召回引擎、iGraph图查询引擎集群物理资源的调度任务:中台容器和隔离技术与搜索工程交汇之地,更是模型训练P...原创 2018-10-10 18:06:37 · 2706 阅读 · 1 评论 -
关于问答系统(Q&A)、对话系统(Chatbot)的学与思
AnyQAnyQ(ANswer Your Questions) 开源项目主要包含面向FAQ集合的问答系统框架、文本语义匹配工具SimNet。(检索式回答)AnyQ系统框架主要由Question Analysis、Retrieval、Matching、Re-Rank等部分组成,框架中包含的功能均通过插件形式加入,如Analysis中的中文切词,Retrieval中的倒排索引、语义索引,Match...原创 2018-10-10 18:03:21 · 11817 阅读 · 0 评论 -
关于智能运维(AIOps)的学与思
AIOps降低运维成本,提升系统效率,如:异常检测,故障发现,异常定位,异常报警聚合,异常根因分析,快速止损,异常自动修复故障预测,容量预测、智能扩容(阈值动态调整,弹性扩缩),趋势预测,热点分析AIOps要解决的是“系统+算法”问题。解决任何一个AIOps中的模块或场景,都需要有“AIOps架构师”把复杂的场景和需求拆解成具体的功能模块: “眼”、“手”、“脑”。“眼”解决那些通...原创 2018-10-10 17:43:11 · 6207 阅读 · 0 评论 -
文本分类
应用:垃圾邮件分类、主题分类、情感分析workflow:https://developers.google.com/machine-learning/guides/text-classification/model使用字符级 ngram 的词袋模型很有效。不要低估词袋模型,它计算成本低且易于解释。RNN 很强大。但你也可以用 GloVe 这样的外部预训练嵌入套在 RNN 模型上...原创 2018-10-14 13:14:28 · 955 阅读 · 0 评论 -
深度学习在搜索广告查询词关键字匹配中的应用
搜索引擎里的广告系统Search AdvertisingDifferent names: Search ads; Paid search; Sponsored searchAd types: Text ads; Product adsAds Selection将Query跟keywords匹配。传统匹配方法:Deep Structured Semantic Mode...原创 2018-09-21 16:22:59 · 1791 阅读 · 0 评论 -
Web广告--广告定向
广告定向广告再营销(重定向)效果很好的广告定向方式。再营销是利用用户在互联网上的行为进行精准定向的广告策略。其中的行为可能包含浏览网页、搜索商品、查看感兴趣的商品信息、将有强烈购买意图的商品放入购物车等等,而“再”的意思则是指将用户感兴趣的商品信息以广告的形式再次展现在他面前。如到访再营销、搜索再营销、广告点击再营销等。简单的cookie(用于标示用户的ID)植入可以用于ret...原创 2018-08-27 21:14:16 · 1715 阅读 · 0 评论 -
计算广告
广告是互联网行业最清晰的一种商业模式,也是大数据时代被热捧的宠儿。计算广告学旨在找到“情境”、“用户”和“广告”之间的最佳匹配,它将计算理论和经济学结合在一起,涉及博弈论、自然语言处理、机器学习等多门学科的融合。斯坦福大学对计算广告学的描述是:“计算广告学是一个综合学科,涉及大规模搜索、文本分析、信息检索、统计建模、机器学习、分类、优化和微观经济学。计算广告的核心问题是要找到在给定的环境下,用...原创 2018-08-27 21:12:57 · 1301 阅读 · 0 评论 -
广告学与在线广告
广告的目的与效果广告:由确定的出资人通过各种媒介进行有关产品的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。广告的主体: 出资人、媒介、受众(三方的博弈)品牌广告:创造独特良好的品牌或产品形象,目的在于提升较长时期内的离线转化率效果广告:在短期内明确用户转化行为诉求的广告。广告 vs 推荐系统:广告:文字链 好于 图片推荐系统:图片 好于 文字链搜...原创 2018-08-27 21:11:53 · 780 阅读 · 0 评论 -
分布式机器学习
三个特点可扩展。可扩展的意思是“投入更多的机器,能处理更大的数据”。而传统的并行计算要的是:“投入更多机器,数据大小不变,计算速度更快”。这是我认识中“大数据”和传统并行计算研究目标不同的地方。如果只是求速度快,那么multicore和GPU会比分布式机器学习的ROI更高。有一个框架(比如MPI或者MapReduce或者自己设计的),支持fault recovery。Fault rec...原创 2018-09-02 21:55:50 · 5376 阅读 · 0 评论 -
推荐系统初探
推荐系统样例:基于对用户兴趣的预测结果,为读者推荐新闻报道、短视频等。(如:今日头条)基于顾客过去的购物或商品搜索历史,为在线商店的顾客推荐他们可能要买的商品。(如:亚马逊)长尾:实体店的货架空间有限,只能给顾客展示所有存在商品的很小一部分,而在线商店能展示任何可用商品 —— 在线销售商对于传统实体销售商的优势。 同样,也是由于长尾的存在,信息爆炸,人们无法看到所有的东西,推荐系统...原创 2018-09-01 20:30:17 · 736 阅读 · 0 评论 -
集成学习(Bagging、Boosting、Stacking)
组合多个学习器:集成方法(ensemble method) 或 元算法(meta-algorithm)。不同算法的集成(集成个体应“好而不同”)同一算法在不同设置的集成数据集不同部分分配给不同分类器之后的集成集成学习中需要有效地生成多样性大的个体学习器,需要多样性增强:对 数据样本 进行扰动(敏感:决策树、神经网络; 不敏感:线性学习器、支持向量机、朴素贝叶斯、k近邻)对 ...原创 2018-08-23 01:01:20 · 7886 阅读 · 2 评论 -
决策树算法(ID3、C4.5、CART)
决策树学习是由训练数据集估计条件概率模型,损失函数通常是正则化的极大似然函数,算法依据信息论来划分数据集。优势:数据形式非常好理解,计算复杂度不高,对缺失值不敏感,可以处理不相关特征缺点:容易过拟合专家系统中经常使用决策树伪代码:(递归函数,递归结束的条件:程序遍历完所有划分数据集的属性,或者每个分支下的所有实例都具有相同的分类。如果数据集已经处理了所有属性,但是类标签依然不是唯一...原创 2018-08-23 00:57:15 · 589 阅读 · 0 评论 -
机器学习中典型工作流程
读取和清洗数据将现实世界中得到的数据(如文本和图像)格式化为算法可以处理的格式(数字特征)。见另一篇Blog: 机器学习中样本数据预处理一句话,数据决定了你的任务是成功和失败。探索和理解输入数据通常需要统计学和基础数学知识,引入一个概念:探索性数据分析(Exploratory Data Analysis, EDA )。见Blog: 机器学习探索性数据分...原创 2018-05-22 00:24:31 · 1547 阅读 · 0 评论 -
机器学习探索性数据分析的数据类型
数据类型是统计学中的重要概念,我们需要对它有正确的理解方能利用正确的数据类型来获得结论。这篇文章将介绍几种用于机器学习探索性数据分析的数据类型,以便正确的把握和利用数据。对数据结构的良好理解对于机器学习中探索性分析十分重要,对于不同的数据类型我们需要不同的统计学度量手段来进行分析测试。同时也需要根据数据的类型选择合适的可视化方式来帮助我们更好的理解数据。最后数据类型也为变量的分类提供了一个有效的途...转载 2018-04-22 00:53:23 · 1996 阅读 · 0 评论 -
机器学习与其他相似概念
灌水占位一篇,看后续再详尽论述。机器学习与数据挖掘机器学习:一种假设数据挖掘:从数据中发现模式机器学习与人工智能机器学习是实现人工智能的一种方法机器学习与统计学统计学可以用来做机器学习和数据挖掘 机器学习基石...原创 2018-04-15 22:31:56 · 712 阅读 · 0 评论 -
机器学习中的「特征工程」到底是什么?
1特征工程是什么?有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:特征处理是特征工程的核心部分,sklearn提供了较为完整转载 2016-12-06 22:08:29 · 1810 阅读 · 0 评论 -
机器学习性能改善备忘单:32个帮你做出更好预测模型的技巧和窍门
作者 | Jason Brownlee选文 |Aileen翻译 | 姜范波 校对 | 寒小阳机器学习最有价值(实际应用最广)的部分是预测性建模。也就是在历史数据上进行训练,在新数据上做出预测。 而预测性建模的首要问题是:如何才能得到更好的结果?这个备忘单基于本人多年的实践,以及我对顶级机器学习专家和大赛优胜者的研究。有了转载 2016-12-06 22:05:37 · 455 阅读 · 0 评论 -
机器学习常见算法个人总结
朴素贝叶斯参考[1]事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生AP(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B)所以有:P(A|B)=P(B|A)∗P(A)P(B)对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别工作原理假设现在有样本x=(a转载 2016-09-24 21:49:42 · 1433 阅读 · 0 评论 -
GBDT:梯度提升决策树
作者: SiyueLin 来自: 36大数据综述GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。GBDT中的树是回归树(不是分类树),GB转载 2016-09-24 21:17:58 · 1868 阅读 · 0 评论 -
机器学习入门心得——书籍、课程推荐
MOOCsCoursera 上 Andrew Ng 的 Machine Learning 课程:适合 Machine Learning 的入门,我当时是研一的上学期听的这个课,学校的课还比较多,那时是完全按照他的课程日历来学的,每周都有Deadline,一共学习了3个月,就是通过这个课对机器学习有了一个整体的理解,学习课程的时候一定要记得做Assignment,非常有帮助。研一下学期听了师兄们推荐的原创 2016-07-16 16:00:25 · 26841 阅读 · 1 评论 -
xgboost在windows下的安装与使用
XGBoost wins many data science and machine learning challenges. Used in production by multiple companies. 下载:使用Git Bashgit clone --recursive https://github.com/dmlc/xgboost上面下载的是xgboost的最新版本,还不支持window原创 2016-07-25 09:44:13 · 900 阅读 · 0 评论 -
特征选择
特征选择1.相关性通过使用相关性,我们很容易看到特征之间的线性关系。这种关系可以用一条直线拟合。下面通过皮尔逊相关系数(Pearson correlation coefficient)来解释特征的相关性:下面每幅图上方的相关系数Cor(X1, X2)是计算出来的皮尔逊r值,从图中可以看出不同程度的相关性。 p值越高,我们越不能信任这个相关系数 上图中,前三个具有高相关系数,我们可以选择把X1原创 2016-06-21 09:47:21 · 11450 阅读 · 4 评论 -
数据挖掘十大算法 and 算法概述
“数据挖掘十大算法”是IEEE数据挖掘国际会议(ICDM)上的一篇论文,2007年12月在Jonural of Knowledge and Information Systems杂志上发表。根据知识发现和数据挖掘国际会议(KDD)获奖者的问卷调查结果,论文统计除了排名前十的数据挖掘算法。C4.5决策树K-均值(K-mean)支持向量机(SVM)Apriori最大期望算法(EM)Pa...原创 2018-05-22 00:25:34 · 1221 阅读 · 0 评论 -
机器学习中样本数据预处理
特征缩放X_norm=(X-X_min)/(X_max-X_min )lambda x: (x - x.min()) / (x.max() - x.min())特征标准化Gaussian with zero mean and unit variance. z=(x-μ)/σnumeric_feats = all_X.dtypes[all_X.dtypes != "o...原创 2018-05-22 00:26:56 · 2294 阅读 · 0 评论 -
感知机 - 支持向量机
感知机1957年由Rosenblatt提出,是神经网络与支持向量机的基础。感知机是根据输入实例的特征向量x对其在进行二类分类的线性分类模型:f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)感知机模型对应于输入空间(特征空间)中的分离超平面wx+b=0感知机学习的策略是极小化损失函数:minw,bL(w,b)=−1...原创 2018-08-23 00:53:30 · 727 阅读 · 0 评论 -
最大熵模型
最大熵原理最大熵原理是概率模型学习或估计的一个准则,最大熵原理认为在所有可能的概率模型(分布)的集合中,熵最大的模型就是最好的模型。熵:H(P)=−∑xP(x)logP(x)H(P)=−∑xP(x)logP(x)H(P) = - \sum_x P(x)logP(x) 满足:0≤H(P)≤log|X|0≤H(P)≤log|X|0 \le H(P) \le log|X...原创 2018-08-23 00:47:36 · 627 阅读 · 0 评论 -
逻辑回归
逻辑回归(Logistic Regression)判别模型:我们只需要学习P(y|x)。让步比(odds ratio): 假设一个特征有0.9的概率属于类别1,P(y=1)=0.9。那让步比为:P(y=1)/P(y=0) = 0.9/0.1 = 9。让步比范围0到正无穷。取对数后将所有0到1之间的概率映射到负无穷到正无穷,更高的概率对应于更高的让步比对数。线性等式: yi=w0+w...原创 2018-08-23 00:45:28 · 1086 阅读 · 0 评论