- 博客(74)
- 资源 (2)
- 收藏
- 关注
原创 终极算法【7】——类推学派
类比是推动许多历史上最伟大科学进度的动力。当达尔文阅读马尔萨斯的《人口论》时,被经济和自然界中生存竞争的相似性触动,所以有了自然选择理论的诞生。类比在机器学习中扮演重要性刚开始进展缓慢,它的第一个算法的化身出现在一份写于1951年的技术报告中,作者是两位伯克利的统计学家——伊夫琳.菲克斯和乔.霍奇斯。最近邻算法是我们类比学习法之旅的第一站,第二站是支持向量机,第三站也是最后一站,是成熟的类比推...
2018-07-29 22:02:02
1593
原创 终极算法【6】——贝叶斯学派
本质上,贝叶斯定理不仅仅是一个简单的规则,当你收到新的论据时,它用来改变你对某个假设的信任度:如果论据和假设一致,假设成立的概率上升,反之则下降。如果我们观察一个即使没有该原因也会发生的结果,那么能肯定的是,该原因的证据力不足。贝叶斯通过以下句子概括了:P(原因|结果)随着P(结果),即结果的先验概率(也就是在原因不明的情况下结果出现的概率)的下降而下降。最终,其他条件不变,一个原因是前验的可...
2018-07-29 12:49:13
1801
原创 终极算法【5】——进化学派
在霍德.利普森位于康奈尔大学的创意机器实验室中,奇形怪状的机器人正在学习爬行和飞行。这些机器人并不是人类工程师设计出来的,而是进化来的,和地球上生命多样性产生的过程一样。使这些机器人进化的算法,是19世纪由查尔斯.达尔文发明的。那时他不觉得这是一种算法,部分原因在于当时缺少一个关键的子程序。一旦1953年詹姆斯.沃森和弗朗西斯.克里克提供了该子程序,进化就会进入第二个阶段:该进化是在计算机中而不是...
2018-05-28 22:29:46
1347
原创 大数据存储综述
本文内容源自网络整理,更多详细内容请阅读参考文献的原文。1 存储方式1.1 块存储块存储就好比硬盘一样,直接挂载到主机,一般用于主机的直接存储空间和数据库应用的存储。它分两种形式:DAS:一台服务器一个存储,多机无法直接共享,需要借助操作系统的功能,如共享文件夹。SAN:金融电信级别,高成本的存储方式,涉及到光纤和各类高端设备,可靠性和性能都很高,除了贵和运维成本高,基本都是好处。云存储的块存储:...
2018-04-01 14:57:08
17361
1
原创 终极算法【4】——联结学派
赫布律是联结主义的基石,联结主义相信知识存储在神经元之间的联结关系中。威廉.詹姆斯在其著作《心理学原理》中,阐明了连接的主要原理,这和赫布律十分相似,只是大脑活动被神经元取代,放电效率被兴奋的传播取代。在符号学派中,符号和它们之间代表的概念之间有一一对应的关系。相反,联结学派的代表方式却是分散式的:每个概念由许多神经元来表示,而每个神经元又会和其他神经元一起代表许多不同的概念。符号学派和联结学派的...
2018-03-24 18:03:27
2179
原创 终极算法【3】——符号学派
理性主义者认为,感官会欺骗人,而逻辑推理是通往知识的唯一可靠的道路。经验主义者认为所有的推理都是不可靠的,知识必须来源于观察及实验。理性主义与经验主义是哲学家最热衷讨论的问题。柏拉图是早期的理性主义者,而亚里士多德是早期的经验主义者。关于这个问题的辩论,真正开始于启蒙运动时期,每方有三位伟大的思想家:笛卡尔、斯宾诺莎、莱布尼茨是理性主义的代表,洛克、贝克莱、休谟则是经验主义的代表。大卫.休谟是最伟...
2018-03-18 11:38:42
2697
1
原创 终极算法【2】——终极算法
机器学习的应用非常广泛,更为惊人的是,相同的算法可以完成不同的事。在机器学习领域之外,如果你要解决不同的问题,就得编写两个不同的程序。相同的机器学习算法不仅可以完成无穷无尽且不同的事,而且和被它们替代的传统算法相比,它们要简单得多。多数学习算法可能只有数百行或者数千行。相比之下,传统程序则需几十万甚至上百万行代码。如果那么少的学习算法就可以做那么多事,那么有一个逻辑上的疑问:单个学习算法可
2018-02-06 22:26:54
2343
原创 终极算法【1】——机器学习革命
当今,算法与我们息息相关,生活周围的手机、汽车、房子、家电和工厂等等,算法无时无刻不在发挥着作用。如果所有算法都突然停止运转,那么就是人类世界的末日。算法就是一系列指令,告诉计算机该做什么。克劳德.香农以“信息论之父”为人们所知,他第一个意识到晶体管的活动就是运算。如果A晶体管只有在B和C晶体管都打开是才打开,那么这时它就是在做小型的逻辑运算;如果A晶体管在B和C晶体管其中一个打开时才
2018-01-28 22:03:59
731
原创 统计思维(实例11)——时间序列分析
时间序列(time series)是来自随时间变化的系统的一系列度量。本章使用的示例来自Zachary M. Jones。Jones的研究目的是调查像大麻合法化这样的政策性决定会对市场产生何种影响。希望大家对本章内容感兴趣,但借此机会重申对数据分析保持专业性态度的重要性。药品是否非法,哪些药品应当属于非法,这是很重要而又难以回答的公共政策问题,人们应当基于诚实准确的数据进行决策。导入和清洗数据从J
2018-01-17 22:38:40
18739
1
原创 统计思维(实例10)——回归
回归分析的目的是描述两组变量之间的关系,一组称为因变量(dependent variable),另一组称为解释变量(explanatory variable)。如果回归分析中只有1个因变量和1个解释变量,就属于简单回归(simple regression)。本章讨论多重回归(multiple regression),涉及多个解释变量。有多个因变量的回归分析称为多元回归(multivariate
2018-01-13 22:13:09
1444
原创 统计思维(实例9)——线性最小二乘法
最小二乘法拟合相关系数度量变量关系的强弱和正负,但并不关注关系的斜率。估计斜率最常用的是线性最小二乘法拟合(linear least squares fit),“线性拟合”是用一条线对变量关系进行建模,“最小二乘法”拟合实现线与数据之间的均方差最小。假设我们要将一个点序列ys表示成另一个序列xs的函数。如果xs和ys之间存在线性关系,截距为inter,斜率为slope,那么我们就可
2018-01-10 23:04:04
1597
原创 服务发现:Zookeeper vs etcd
服务注册和服务发现是分布式系统和SOA的核心组成部分,服务注册是将服务描述信息写入集群,服务发现则是客户端能从众多服务提供者获取相应正确地址。传统情况下,使用静态配置方法实现服务信息注册。当大型系统中,服务量更大、变化更频繁时,为了避免不必要的服务中断,动态的注册和发现则尤为重要。本文讨论两个可用于服务注册和发现的项目Zookeeper和etcd。
2016-06-19 16:42:59
3530
原创 【Thrift】Thrift框架原理
Apache Thrift软件框架用于跨语言的服务开发,通过代码编译引擎可生成C++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Cocoa、JavaScript、Node.js、Smalltalk、OCaml和Delphi等各种语言的服务交互框架。
2016-06-05 23:04:11
1284
原创 【工具】持续集成工具——Jenkins
Jenkins是现在非常流行的持续集成CI服务器,它易于安装,直接通过Web界面进行配置,而且集成了RSS/Email的通知机制,支持分布式构建,具有丰富的插件。
2016-05-07 19:01:34
7333
原创 【OpenStack】OpenStack原理(二)——开发基础
OpenStack使用Jenkins搭建自己的持续集成服务器。Jenkins背后需要依托大量的单元测试以及集成测试代码,单元测试的代码位于各个项目自身的源码树里,而OpenStack的集成测试则是使用Tempest作为框架。
2016-04-17 21:23:47
2053
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人