
机器学习与深度学习
文章平均质量分 81
macyang
Chance is waiting for prepared people and my Status is read the fucking source code.
展开
-
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1
注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子.《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、转载 2016-11-29 10:43:33 · 2458 阅读 · 0 评论 -
逻辑回归LR
逻辑回归算法相信很多人都很熟悉,也算是我比较熟悉的算法之一了,毕业论文当时的项目就是用的这个算法。这个算法可能不想随机森林、SVM、神经网络、GBDT等分类算法那么复杂那么高深的样子,可是绝对不能小看这个算法,因为它有几个优点是那几个算法无法达到的,一是逻辑回归的算法已经比较成熟,预测较为准确;二是模型求出的系数易于理解,便于解释,不属于黑盒模型,尤其在银行业,80%的预测是使用逻辑回归;三是结果转载 2017-11-08 09:54:27 · 434 阅读 · 0 评论 -
机器学习经典算法详解及Python实现---Logistic回归(LR)分类器
(一)认识Logistic回归(LR)分类器首先,Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题,利用Logistic函数(或称为Sigmoid函数),自变量取值范围为(-INF, INF),自变量的取值范围为(0,1),函数形式为:由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的转载 2017-11-08 09:56:19 · 773 阅读 · 0 评论 -
机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用
摘要:朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类。总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型;当各特征相关性较小时,朴素贝叶斯分类性能最为良好。另外转载 2017-11-08 14:53:18 · 2707 阅读 · 0 评论 -
机器学习算法之朴素贝叶斯(Naive Bayes)--第二篇
引言如果你对朴素贝叶斯的原理不太清楚,请看我的第一篇文章:http://blog.youkuaiyun.com/xlinsist/article/details/51236454这篇文章主要介绍将朴素贝叶斯模型应用到文本分类任务的技巧和方法。词袋模型(The Bag of Words Model)对于机器学习算法来说,特征的选择是一个很重要的过程。那么如何从文本训练集中选出好的转载 2017-11-08 17:21:57 · 1588 阅读 · 0 评论 -
朴素贝叶斯文本分类算法学习
最近在学习推荐系统过程中,要用到朴素贝叶斯(Naive Bayes)进行文本的分类。再一次深刻认识到学好基础知识的重要性,要理解朴素贝叶斯,需要有很好的概率与数理统计,离散数学基础。一.Naive Bayes基础知识。对于随机试验E有两个随机事件A,B,且P(B) > 0 那么在B事件发生的条件下A发生的概率为:其中P(AB)为A,B两个事件的联合概率。对上式利用乘法公式可以变形为:这样就得...转载 2017-11-08 17:45:55 · 878 阅读 · 0 评论 -
我的数学之美系列二 —— simhash与重复信息识别
在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可转载 2018-01-11 15:28:14 · 450 阅读 · 0 评论 -
Community Detection 算法
社区发现(Community Detection)算法用来发现网络中的社区结构,也可以视为一种广义的聚类算法。以下是我的一个 PPT 报告,分享给大家。 从上述定义可以看出:社区是一个比较含糊的概念,只给出了一个定性的刻画。另外需要注意的是,社区是一个子图,包含顶点和边。转载 2018-01-22 09:47:37 · 390 阅读 · 0 评论 -
RF、GBDT、XGBoost面试级整理
RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Bagg...转载 2018-03-27 13:52:36 · 405 阅读 · 0 评论 -
协同过滤推荐算法的原理及实现
一、协同过滤算法的原理及实现二、基于物品的协同过滤算法详解一、协同过滤算法的原理及实现协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物...转载 2018-04-04 10:54:01 · 1216 阅读 · 0 评论 -
机器学习中的数学(2)-线性回归,偏差、方差权衡
版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。如果有问题,请联系作者 wheeleast@gmail.com前言: 距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点心得转载 2017-11-07 15:35:42 · 592 阅读 · 0 评论 -
机器学习经典算法之-----最小二乘法
一.背景 5月9号到北大去听hulu的讲座《推荐系统和计算广告在视频行业应用》,想到能见到传说中的项亮大神,特地拿了本《推荐系统实践》求签名。讲座开始,主讲人先问了下哪些同学有机器学习的背景,我恬不知耻的毅然举手,真是惭愧。后来主讲人在讲座中提到了最小二乘法,说这个是机器学习最基础的算法。神马,最基础,我咋不知道呢! 看来以后还是要对自己有清晰认识。 回来赶紧上百度,搜了下转载 2017-11-07 15:15:12 · 622 阅读 · 0 评论 -
通俗理解神经网络之激励函数(Activation Function)
关于神经网络激励函数的作用,常听到的解释是:不使用激励函数的话,神经网络的每层都只是做线性变换,多层输入叠加后也还是线性变换。因为线性模型的表达能力不够,激励函数可以引入非线性因素。 其实很多时候我们更想直观的了解激励函数的是如何引入非线性因素的。我们使用神经网络来分割平面空间作为例子。无激励函数的神经网络神经网络最简单的结构就是单输出的单层感知机,单层感知机只有输入层和输转载 2016-12-01 14:02:58 · 2866 阅读 · 0 评论 -
十个值得一试的开源深度学习框架
本周早些时候Google开源了TensorFlow(GitHub),此举在深度学习领域影响巨大,因为Google在人工智能领域的研发成绩斐然,有着雄厚的人才储备,而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具。无疑,来自Google军火库的TensorFlow必然是开源深度学习软件中的明星产品,登陆GitHub当天就成为最受关注的项目,当周获得评星数就轻松超过1万转载 2016-12-13 14:50:25 · 2756 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。 学习方式 根转载 2016-12-24 22:32:28 · 724 阅读 · 1 评论 -
K-means聚类算法
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如转载 2017-01-06 13:49:18 · 489 阅读 · 0 评论 -
Logistic Regression(逻辑回归)详细讲解
Logistic Regression(逻辑回归)以前在学校学到Logistic Regression的时候,虽然最后会使用,但是对于许多地方有很多的疑惑,今天在这里详细梳理一下Logistic Regression的过程:Logistic Regression逻辑回归回归的思想Logistic Regression形式损失函数最小化Einw E_invec w转载 2017-01-12 13:56:37 · 1443 阅读 · 0 评论 -
机器学习——决策树算法原理及案例
机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例,着重从特征选择、剪枝等方面描述决策树的构建,讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS Modeler这两个工具,分别设计与实现了决策树模型的应用实例。1.机器学习概念转载 2017-01-12 15:32:23 · 3035 阅读 · 0 评论 -
集成学习——Bootstrap Bagging AdaBoost算法
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。 简单地说,就是通过抽样等方式从原始数据集构造m个训练集,再选择一个弱分类器(比如决策树)对这些训练集进行训练得到m个分类器,在待分类数据进行分类时,同时使用这m个分类器去判断,使用多数表决或者权重联合的方式综合这m个分类器给出的分类结果,得到最终结果。 就好比是:转载 2017-01-12 17:40:27 · 680 阅读 · 0 评论 -
欠拟合、过拟合及其解决方法
在我们机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题,但是,一开始我们的模型往往是欠拟合的,也正是因为如此才有了优化的空间,我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了,这个问题也在学术界讨论的比较多。(之前搜了很多有的博客,讲的都不太全,因此我重新整理总结了一遍,同时加入了自己的理解,方便自己和后来人查阅)转载 2017-01-13 10:08:34 · 1471 阅读 · 0 评论 -
机器学习算法之朴素贝叶斯(Naive Bayes)--第一篇
引言先前曾经看了一篇文章,一个老外程序员写了一些很牛的Shell脚本,包括晚下班自动给老婆发短信啊,自动冲Coffee啊,自动扫描一个DBA发来的邮件啊, 等等。于是我也想用自己所学来做一点有趣的事情。我的想法如下:首先我写个scrapy脚本来抓取某个网站上的笑话之后写个Shell脚本每天早上6点自动抓取最新的笑话然后用朴素贝叶斯模型来判断当前的笑话是否属于成人笑话如果是成人笑话,转载 2017-07-07 09:59:11 · 1375 阅读 · 0 评论 -
通俗理解卷积神经网络(cs231n与5月dl班课程笔记)
通俗理解卷积神经网络(cs231n与5月dl班课程笔记)1 前言 2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。 本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开...转载 2018-04-19 11:15:51 · 1011 阅读 · 0 评论