
机器学习
文章平均质量分 67
Nicholas_Liu2017
这个作者很懒,什么都没留下…
展开
-
不到 200 行代码,教你如何用 Keras 搭建生成对抗网络(GAN)
原文转载:https://www.leiphone.com/news/201703/Y5vnDSV9uIJIQzQm.html生成对抗网络(Generative Adversarial Networks,GAN)最早由 Ian Goodfellow 在 2014 年提出,是目前深度学习领域最具潜力的研究成果之一。它的核心思想是:同时训练两个相互协作、同时又相互竞争的深度转载 2017-07-11 23:51:48 · 4349 阅读 · 0 评论 -
blogs
http://www.cnblogs.com/wangxiaocvpr/p/5894054.html一些相关的博客原创 2017-07-11 17:53:37 · 444 阅读 · 0 评论 -
特征工程(三) 数据标准化和归一化
归一化:1)把数据变成(0,1)之间的小数2)把有量纲表达式变成无量纲表达式 归一化算法有:1.线性转换 y=(x-MinValue)/(MaxValue-MinValue2.对数函数转换: y=log10(x)3.反余切函数转换 y=atan(x)*2/PI4.线性也与对数函数结合 式(1)将输入值换算为[转载 2017-07-08 19:43:57 · 6589 阅读 · 0 评论 -
特征工程(一)
特征工程在数据处理上,其重要性是有目共睹的,这里转载一篇写的十分好的知乎评论,可以看一下https://www.zhihu.com/question/29316149转载 2017-07-08 14:45:08 · 445 阅读 · 0 评论 -
特征工程(二)
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法转载 2017-07-08 14:40:38 · 605 阅读 · 0 评论 -
selfdriven
https://sites.google.com/site/cvadtutorial15/materials原创 2017-07-05 17:02:04 · 350 阅读 · 0 评论 -
广义线性模型
这篇文章,介绍了广义线性模型,讲的很好,将许多看似没有关联的模型,都关联起来,最终发现都是基于指数分布族,只是对随机变量服从的分布做了不同的假设,因此得到了不同的机器学习模型,本文很好,转自: http://blog.youkuaiyun.com/acdreamers/article/details/44663091今天我来介绍一种在机器学习中应用的比较多的模型,叫做广义线性模型(GLM)转载 2017-07-05 10:37:42 · 669 阅读 · 0 评论 -
特征工程之连续特征与离散特征处理方法介绍
这篇文章讲得很好,转载自: http://blog.youkuaiyun.com/shenxiaoming77/article/details/52103124下面一篇是关于连续特征与离散特征处理的论文:Before I answer the above question, let us Go through some basic ideas.Why do we bin转载 2017-07-05 10:26:26 · 845 阅读 · 0 评论 -
调试的错误就是编程给你最好的东西,因为在每个错误上面都标志着前进的一步
众包已经成为当今获取标记数据的基本手段。我们可以通过众包在短时间内以极为低廉的价格获取大量的标记数据。然而,通过众包获取的数据通常质量不高。这有两方面的原因:一是服务于众包平台的数据标记员通常缺乏相应的领域知识;二是众包平台没有有效的奖赏机制激励数据标记员提供高质量的工作。此报告将总结微软雷德蒙研究院过去几年在这个基本的众包问题的研究与工程上的进展。具体来说,我们的工作主要集中在群体智慧与激励机制转载 2017-06-30 16:57:03 · 322 阅读 · 0 评论 -
机器学习大规模学习平台架构
对于已有的开源的机器学习框架,很多都是单机环境下部署的,但是对于大公司层面的机器学习的应用需求,简单的单机,分布式spark机器学习平台很难满足公司的大数据应用需求,因为不仅要求具有正确性,还要求高效性和稳定性。这里面存在很多的问题,比如模型如何在多台机器上跑,参数如何分布在多台服务器上,构成parameter server (google提出的),同样的,这些参数如何时时的更新,学习,并且如原创 2017-06-29 16:22:59 · 4066 阅读 · 0 评论 -
Isolation Forest算法原理详解
原文地址:http://blog.youkuaiyun.com/u013709270/article/details/73436588本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。 或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序转载 2017-06-29 11:05:34 · 2124 阅读 · 0 评论 -
酒店情感分析
对于预料集,可以从这个数据堂拿数据:http://www.datatang.com/其中关于酒店情感数据分析部分:http://www.datatang.com/data/shop-page.html?k=%E9%85%92%E5%BA%97%E6%83%85%E6%84%9F对于酒店情感分析,很重要的一点就是语料库要好,同时,分词时需要的有好的情感词库,这样才能得到更好的分词结果原创 2017-06-27 20:49:55 · 3643 阅读 · 0 评论 -
文本情感分类
电影文本情感分类Github地址Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯、逻辑回归等,这里挑战之一是文本内容的向量化,因此,我们首先尝试基于TF-IDF的向量化方法,然后尝试word2vec。# -*- coding: UTF-8 -*-import pa转载 2017-06-26 20:04:59 · 8178 阅读 · 0 评论 -
25张图让你读懂神经网络架构
由于新的神经网络架构无时无刻不在涌现,想要记录所有的神经网络是很困难的事情。要把所有这些缩略语指代的网络(DCIGN,IiLSTM,DCGAN等)都弄清,一开始估计还无从下手。下表包含了大部分常用的模型(大部分是神经网络还有一些其他的模型)。虽然这些架构都是新奇独特的,但当我开始把它们的结果画下来的时候,每种架构的底层关系就会清晰。显然这些节点图并不能显示各个模型的内部工作转载 2017-06-24 20:18:06 · 23942 阅读 · 0 评论 -
Google advances AI with ‘one model to learn them all
Google quietly released an academic paper that could provide a blueprint for the future of machine learning. Called “One Model to Learn Them All,” it lays out a template for how to create a single m转载 2017-06-21 19:13:29 · 368 阅读 · 0 评论 -
What’s a Good Clickthrough Rate? New Benchmark Data for Google AdWords
https://blog.hubspot.com/agency/google-adwords-benchmark-dataAs marketers, we're always thinking about the most optimal way to target our potential customers. Trouble is, mastering Google Ad转载 2017-06-20 21:38:05 · 542 阅读 · 0 评论 -
Learning to Rank(LTR)
Learning to Rank(LTR)声明:本文主要参考Learning to Rank 简介、Learning to Rank小结文章。 另参考李航老师A short introduction to learning to rank一文。 对以上文章有较多引用,在此对原作者表示感谢!刚刚接触排序学习,很多问题尚不清楚,在努力学习中,如有错误欢迎指出。本文也转载 2017-06-20 14:49:51 · 698 阅读 · 0 评论 -
python 统计
今天找到了一个Python的第三方库,pymc,这里面很详细的介绍了如果通过编程来实现统计中的方法,相信通过使用这个库,可以更进一步的理解统计学知识。原创 2017-06-15 18:02:11 · 423 阅读 · 0 评论 -
Tensorflow学习笔记1:Get Started
关于Tensorflow的基本介绍Tensorflow是一个基于图的计算系统,其主要应用于机器学习。从Tensorflow名字的字面意思可以拆分成两部分来理解:Tensor+flow。Tensor:中文名可以称为“张量”,其本质就是任意维度的数组。一个向量就是一个1维的Tensor,一个矩阵就是2维的Tensor。Flow:指的就是图计算中的数据流。当我们想要使用T转载 2017-06-13 15:45:43 · 526 阅读 · 0 评论 -
Tensorflow学习笔记2:About Session, Graph, Operation and Tensor
简介上一篇笔记:Tensorflow学习笔记1:Get Started 我们谈到Tensorflow是基于图(Graph)的计算系统。而图的节点则是由操作(Operation)来构成的,而图的各个节点之间则是由张量(Tensor)作为边来连接在一起的。所以Tensorflow的计算过程就是一个Tensor流图。Tensorflow的图则是必须在一个Session中来计算。这篇笔记来大致介绍转载 2017-06-13 13:32:10 · 459 阅读 · 0 评论 -
深度学习python库安装经验,Windows下安装Anaconda3 pycharm tensorflow keras theano中遇到的问题
一般在windows上安装python,可以有2种方式(我目前只使用这两种),一种是安装原生态的python2, python3。但是这样存在一个问题,有很多库没有安装,在安装其他的第三方库时,还需要不断的添加其他的库,有很多依赖,有许多不方便(当然,如果你对各种库的依赖很熟悉,那可以安装精简版的mini Conda)。另外一种方式是安装完整版的AnaConda,这是一个很全的库,这个库里几乎拥有原创 2017-06-12 11:02:06 · 3367 阅读 · 0 评论 -
P-Value检验和假设检验
看了一篇很好的解释p-value的文章,其中包括显著性单侧,双侧检验,讲的很通俗易懂!假设检验是推断统计中的一项重要内容。用SAS、SPSS等专业统计软件进行假设检验,在假设检验中常见到P 值( P-Value,Probability,Pr),P 值是进行检验决策的另一个依据。P 值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P原创 2017-06-11 17:32:18 · 2532 阅读 · 0 评论 -
统计中的p-value检验
最近和一个老同学讨论统计中的p-value检验问题,其中涉及到为什么需要用p-value来做假设检验的判断依据,上网查到了一个很好的例子:教室里四位同学将装了若干数量的白球和黑球的箱子放在了课桌上,然后他们叫来了他们的小伙伴小花同学。他们对小花说:“小花,我们来玩个猜猜猜的游戏吧,你在这个箱子里摸5次球,每次摸完都要放回去再摸下一次,然后你猜里面的白球和黑球是不是一样多。”,小花就转载 2017-06-11 17:15:58 · 4300 阅读 · 2 评论 -
几个概念要弄清楚-python(matlab) axis, standard deviation
无论在学习什么东西的过程中,扩宽眼界时非常重要,这样会让自己胸有成竹,知道自己走到了哪里,接下来往哪里走,会遇到哪些问题需要攻破。但是在了解了广度之后,对一个问题的深入的研究,也需要重视,最关键的是最基础的概念,一定要弄明白,因为只有这些才会支撑你走的更远。首先对于python,matlab中,axis = 0, axis = 1(python),axis = 1, axis = 2(原创 2017-06-06 09:01:01 · 1394 阅读 · 0 评论 -
爬虫 Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧。1. Beautiful So转载 2017-06-05 17:19:41 · 389 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
ROC曲线和AUC曲线在机器学习中应用非常之多,这两条曲线作为评价模型在数据上表现的好坏程度是十分关键的,因此需要很好的理解这两条曲线。ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如转载 2017-06-05 08:51:28 · 483 阅读 · 0 评论 -
混淆矩阵,机器学习评价准则,ROC曲线-阈值评价标准
ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近转载 2017-06-05 08:32:09 · 3066 阅读 · 0 评论