自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 01 Introduction to PHP

01 Introduction to PHP  我们先看下这个章节的主要内容介绍: What Does PHP Do?A Brief History of PHP The Evolution of PHP The Widespread Use of PHPInstalling PHPA Walk Through PHP  本书开篇第一句话:P...

2013-05-16 21:06:05 275

原创 00 Preface

00 Preface 最近需要用到php,所以需要在极快的时间内熟悉php的语法特性和语言特性,仅以此文为开始。 目前的现实情况是:1:有比较好的Java基础和Javascript基础。2:php基础较弱,需要系统的学习。3:目标想在较短的时间内获得php知识的轮廓,有个整体的印象,能够应付正常工作。 使用书籍:Programming PHP  3rd ...

2013-05-16 21:05:32 230

原创 How to Crash Java VM

How to Crash Java VM 最近线上Java应用爆出了个很诡异的问题,需要理解Java虚拟机方面的知识,也正在补充JVM方面的知识;突然有个想法,如何人为的让JVM爆掉(Crash)呢?这个想法说起来简单,实际上想考虑完全还是比较困难的。我将我自己想到的内容先放上来,后面会补充一些其它的知识。 1:利用JVM里面的一些非常规错误(Error),如StackOv...

2013-05-13 12:11:16 326

原创 Sed应用入门

Sed应用入门 1. Sed入门 我们先看下系统对于sed的介绍sed - stream editor for filtering and transforming text sed是在线编辑器,它每次只处理一行内容;处理时把当前处理的行存储在临时缓冲区中,称为“模式空间”,接着用sed命令处理缓冲区中的内容;处理完成后,把缓冲区的内容送往屏幕;接着再处理下一行。这样不断重...

2013-05-06 20:17:26 237

原创 机器学习书目推荐

机器学习书目推荐  决策树的重要性和入门可以参考前面两篇文章:在清华水木上有个Machine Learning的书单: http://www.newsmth.net/nForum/#!article/AI/34859 其中作为入门的几本书也不简单,都是经典的作品PRML或者是最新的著作(ML-APP),这些书在网上都能找到,不过找到不过不看放在硬盘里的话,其实这些书对你的用...

2013-04-21 18:04:56 244

原创 Decision Tree:CART、剪枝

Decision Tree:CART、剪枝 决策树的重要性和入门可以参考前面两篇文章,尤其是入门的ID3算法:http://isilic.iteye.com/blog/1841339、http://isilic.iteye.com/blog/1844097Classification And Regression Tree(CART)也是决策树的一种,并且是非常重要的决策树。除...

2013-04-13 11:48:27 478

原创 Decision Tree:ID3、C4.5

Decision Tree:ID3、C4.5 ID3(Iterative Dichotomiser 3)算法是判定树算法(Decision Tree Learning)的典型代表算法,由Ross Quinlan在1975年提出。ID3是作为C4.5的先驱,在Machine Learning和Natural Language Processing中使用广泛。该分类算法的核心是Entrop...

2013-04-08 21:18:07 244

原创 Python:Random模块学习

Python:Random模块学习 在使用python生成随机数时,肯定会想到random模块。random模块实现了各种分布的伪随机(Pseudo-Random)数生成,我们这次来学习下Python的random模块。对于整数来说,random模块很简单,这个也是很常用的伪随机生成使用方法;但是对于序列(Sequence)来说,random模块能够随机选取序列元素、生成序列的随机...

2013-04-05 19:11:45 436

原创 Decision Tree:Analysis

Decision Tree:Analysis 大家有没有玩过猜猜看(Twenty Questions)的游戏?我在心里想一件物体,你可以用一些问题来确定我心里想的这个物体;如是不是植物?是否会飞?能游泳不?当你问完这些问题后,你就能得到这个物体的特征,然后猜出我心里想象的那个物体,看是否正确。这个游戏很简单,但是蕴含的思想却是质朴的。每个问题都会将范围减少,直到特征显现,内蕴的思想...

2013-04-03 11:53:22 287

原创 k Nearest Neighbor Algorithm

k Nearest Neighbor Algorithm k Nearest Neighbor(kNN) algorithm算法和k-Means算法一样,都是简单理解,但是实际效果出人意料的算法之一。正式由于其算法思想简单,很多人可能会认为在工程中用途有限,实际上kNN和k-Means两种算法正是凭借其算法思想入选 Top Ten Data Mining Algorithm(http:...

2013-03-28 20:22:04 244

原创 Regression:Logistic Regression Analysis

 Regression:Logistic Regression Analysis Linear Regression在处理数据输入和数据输出的线性关系上非常有用,但是还是有很多情况,如数据输出空间为R且连续,如果处理的数据离散、输出为二分类(Binary,{0,1})时,LR就不合适处理这宗数据模型,准确的说不是最优(Optimal)处理数据的方法。在这种数据模型下,Logistic ...

2013-03-24 23:51:28 436

原创 Regression:Linear Regression Analysis

Regression:Linear Regression Analysis 这次我们来学习线性回归模型(Linear Regression Model),线性回归是一种简单的停机模型。最简单直观的概念就是输入X和输出Y为线性关系;尽管关系简单,但是对于后来的学习非常重要。我们前面已经学习过基本概念,有输入数据X,输出数据Y,待估计变量W,则线性模型可以表示为: 其中的误差表示符...

2013-03-23 12:44:18 557

原创 Regression Analysis

Regression Analysis  Regression Analysis是一种用来估计变量之间关系的统计技术,请注意估计、变量、统计等关键词;用用统计学知识,对于隐含变量进行处理,估计数据间的关系就叫Regression Analysis。 有很多中建模技术都用来解决回归问题,如单变量和多变量、变量独立和变量相关、线性统计和非线性统计、连续和离散、参数和非参数模型等...

2013-03-20 18:12:08 372

原创 k-d tree

k-d tree k-d树(k-dimensional tree)是一种空间数据分割结构,对于组织在d维空间的数据进行搜索,典型的应用如范围搜索(Range Search)和最邻近搜索(Nearest Search)。这两个术语有没有感觉很熟悉,在机器学习Clustering算法中经常用到这两个功能,如DBSCAN、OPTICS等算法。在使用Range Query和Nearest ...

2013-03-18 19:09:22 231

原创 Joda-Time使用一览

Joda-Time使用一览 在Java公共库中,有没有那个类能比日期(Date)、时间(Time)更不好用?没有;有没有哪个类像Date类中有各种莫名其妙的构造方法,然后再给上面加上deprecated注解?有没有哪个类在初始化过程中就充满陷阱,初始化的结果根本不符合预期?可以说最违背软件工程学、颠覆你认知的就是JDK中的日期和时间操作了。 当线上问题、程序bug最...

2013-03-17 18:17:24 232

原创 Clustering:Gaussian Mixture Model and Expectation Maximization

 Clustering:Gaussian Mixture Model and Expectation Maximization 在统计学中,Mixture Model是个概率模型,利用概率密度来对数据分簇,当然Mixture Model不只是可以用来分簇,只是我们在这里使用Mixture Model来进行分簇,借此来学习这个概率模型。Mixture Model通常和概率分布(P...

2013-03-16 22:27:23 357

原创 Clustering:Model-Based Algorithm

Clustering:Model-Based Algorithm 我们在前面学习过的Clustering算法模型有:基于划分(Partitioning):K-Means及其扩展算法基于层次(Hierarchical):Hierarchical Cluster算法这两类算法能够在大多数常规数据空间中运行良好,但是其缺点也是比较明显。数据本身的特性,如欧式空间限制、初始值限制等...

2013-03-13 23:47:51 1243

原创 Clustering:K-means Extention

 Clustering:K-means Extention 在上篇K-Means介绍中,学习了K-means算法的优点和缺点。本文通过扩展K-Means算法来进一步学习Clustering的相关算法。在K-Means算法中,使用的距离概念是欧式距离,这个必须在欧式空间中才有效。这个对数据的要求比较高,如果不能使用欧式空间内的距离(Distance)来描述数据点之间的差异(Dis...

2013-03-10 11:30:15 219

原创 Cluster:Hierarchical Clustering

Cluster:Hierarchical Clustering 上次学习了K-Means算法之后,本次继续学习另外一种Clustering算法:Hierarchical Clustering算法。Hierarchical Clustering分簇技术在Clustering方法中也是很重要的,其历史比较久远,和K-means一样。尽管如此,这两种算法仍然广泛使用,算是Clustering...

2013-03-07 21:54:23 464

原创 Cluster:K-means Algorithm

Cluster:K-means Algorithm K-means算法算是Clustering算法中最为简单的算法了,我们从最简单的算法开始学习。K-means的算法思路很简单,根据算法名字所描述的那样,K是系统的输入参数,表明我们想分簇的数量;首先随机选择K个初始点作为中心点(Centroid),再将每个数据点赋给离其最近的簇,然后更新簇的中心点;直到中心点不再变化为止。 ...

2013-03-06 18:41:57 276

原创 MySql优化04:MySQL 数据库性能优化之SQL优化

MySql优化04:MySQL 数据库性能优化之SQL优化 大家都知道索引对于数据访问的性能有非常关键的作用,都知道索引可以提高数据访问效率。为什么索引能提高数据访问性能?他会不会有“副作用”?是不是索引创建越多,性能就越好?到底该如何设计索引,才能最大限度的发挥其效能?这篇文章主要是带着上面这几个问题来做一个简要的分析,同时排除了业务场景所带来的特殊性,请不要纠结业务场景的影...

2013-03-04 21:05:48 193

原创 Cluster Analysis:聚类分析

Cluster Analysis:聚类分析 Cluster analysis或者Clustering的任务是将对象集合分组,使其成为由类似的对象组成的多个类别的过程。Cluster分组的依据是对象数据的自身信息和对象数据之间的关系;分组目标是将当前Cluster中的数据跟其他簇中的数据最大程度上的区别开来。簇内的相似度越高,组件的差异性越大,分簇的效果越好。聚类分析的目标就是在相似...

2013-03-01 22:38:42 1339

原创 Distance And Dissimilarity

Distance And Dissimilarity 本文收集的用来描述空间距离的公式。注意有些并不能称为是Distance,因其不满足欧式空间的不等式特性;但是这些公式在某些程度上也描述了空间中向量的差异性,所以被称为是Dissimilarity。本文暂不区分Distance和Dissimilarity,统一用Distance看待,方便描述;各位看官心中要有这些区分。 对于空...

2013-02-28 22:26:16 319

原创 MySql优化03:MySQL 数据库性能优化之索引优化

MySql优化03:MySQL 数据库性能优化之索引优化 大家都知道索引对于数据访问的性能有非常关键的作用,都知道索引可以提高数据访问效率。为什么索引能提高数据访问性能?他会不会有“副作用”?是不是索引创建越多,性能就越好?到底该如何设计索引,才能最大限度的发挥其效能?这篇文章主要是带着上面这几个问题来做一个简要的分析,同时排除了业务场景所带来的特殊性,请不要纠结业务场景的影响...

2013-02-27 22:58:37 189

原创 MySql优化02:MySQL 数据库性能优化之表结构优化

MySql优化02:MySQL 数据库性能优化之表结构优化 本文可以作为写SQL时的借鉴。 很多人都将数据库设计范式作为数据库表结构设计圣经,认为只要按照这个范式需求设计,就能让设计出来的表结构足够优化,既能保证性能优异同时还能满足扩展性要求。殊不知,在N年前被奉为圣经的数据库设计3范式早就已经不完全适用了。这里我整理了一些比较常见的数据库表结构设计方面的优化技巧,希望对大...

2013-02-26 22:11:31 177

原创 Mysql优化01:MySQL 数据库性能优化之缓存参数优化

Mysql优化01:MySQL 数据库性能优化之缓存参数优化 数据库属于 IO 密集型的应用程序,其主要职责就是数据的管理及存储工作。而我们知道,从内存中读取一个数据库的时间是微秒级别,而从一块普通硬盘上读取一个IO是在毫秒级别,二者相差3个数量级。所以,要优化数据库,首先第一步需要优化的就是 IO,尽可能将磁盘IO转化为内存IO。本文先从 MySQL 数据库IO相关参数(缓存参数)的...

2013-02-25 19:53:24 228

原创 Mysql:SQL复习

Mysql:SQL复习 本文是周末在家为了复习SQL总结而写。SQL语法如果经常使用的话不会是问题,但是如果你是使用客户端的话例外。我现在操作SQL都是直接使用mysql连接,而不是使用可视化客户端。对于开发人员来说,熟练能够手写CRUD操作是个基本的能力。本文最后会附上MySql的中文翻译文档,如果对文档有疑问的地方,可以直接查询官网: http://dev.mysql.com/...

2013-02-23 23:12:18 136

原创 Mysql:远程连接及用户权限问题

Mysql:远程连接及用户权限问题 今天开发程序,新建用户后,从本机连接服务器时报异常:1103 - host xxx.xxx.xxx.xx is not allowed to connec to this mysql server. 返回异常不允许连接,这个比较怪,各种倒腾后,发现是Mysql的用户体系和权限体系问题、这个只是以前没有认真学习过,这次根据学习过程,将用户体系和...

2013-02-23 20:52:51 476

原创 MySql:存储引擎介绍

MySql:存储引擎介绍 提起数据库DataBase,大家肯定不陌生。尽管现在NoSql数据库发展如火如荼,很是吸引大家的眼球;但是不可否认的是关系型数据库依然在某些应用场景中占据主要地位,不可动摇。数据库中的Mysql数据库,大家肯定也不陌生。作为开源(现在被收购,开源前景未知)的成功典型,Mysql为企业节省了巨大的成本,否则只是数据库的使用成本就会使开销增加许多。笔者所在的公...

2013-02-22 23:00:11 151

原创 Mybatis使用:Dynamic Sql

Mybatis使用:Dynamic Sql 本节我们学习下Mybatis最强大的特性之一。如果你使用过JDBC来拼接SQL语句,后者有其它简单ORM框架使用经验的话,你会明白根据根据条件拼接SQL是多么痛苦,少个括号,逗号,空格都是一种灾难。你需要仔细的测试你的SQL生成的各种结果来确保SQL拼接覆盖到了各种情况。这种情况特别影响心情,还有可能将隐患带到线上。如果出现这种情况的话,...

2013-02-21 23:03:16 635

原创 Mybatis使用:Sql Annotation

Mybatis使用:Sql Annotation 上节我们学习了Mybatis的入门,能够实现简单的CRUD操作,这个算是基本技能了。另外Mybatis提供了Sql的Annotation形式来控制CRUD操作,我们对于数据库的操作也就不外乎这些操作。对于简单的Sql,或者功能简单的Sql来说,将方法和Sql对应起来最为直观,不用根据Id去Mapper.xml中查找,出问题后还得各种分析...

2013-02-20 22:10:57 198

原创 MyBatis使用:入门

MyBatis使用入门 最近项目用到了Mybatis,这个东西以前用过,不过好久不用,稍显生疏,并且当时用的是ibatis-2.x版本,现在已经更新到mybatis-3.2.0-SNAPSHOT,功能和特性有好多更新。今天下午抽了个时间重新读了下文档,发现基本特性上变化不太大。注意本文记录的是基本的内容,仅用作记录,供参考。 本文使用mybatis-3.1.1.jar包 ...

2013-02-19 23:15:30 147

原创 Python Urllib2使用:代理及其它

 Python Urllib2使用 我们先看下Python对于Urllib2的解释:urllib2:An extensible library for opening URLs using a variety of protocolsThe urllib2(http://docs.python.org/2/library/urllib2.html) module defines...

2013-02-17 16:52:21 592

原创 Http Headers详解一览

Http Headers详解一览 HTTP/1.1的定义在www.w3.org中已经详细定义好,具体协议看以参看rfc2616,链接可以参考这里:http://www.w3.org/Protocols/rfc2616/rfc2616.html,在该协议中,定义了HTTP/1.1的必要信息,包括并不仅限于以下:Protocol Parameters:包括HTTP Version,UR...

2013-02-17 02:50:28 579

原创 轻量级的HttpServer

轻量级的HttpServer在JDK1.6里面,提供了一个轻量级的HttpServer实现,我们先来看官方的文档怎么说:Provides a simple high-level Http server API, which can be used to build embedded HTTP servers. 官方参考文档见这里: http://docs.oracle.com/...

2013-01-31 19:32:28 260

原创 线性代数的本质

线性代数的本质声明:这篇文章是转载,详细出处没有找到,倒是找到一处很有可能是原作者的博客,不过作者很早就没有更新了,最为重要的是下面有人提醒作者是转载的时候,作者没有回复,我也不确实是不是真的原作者。转载这篇文章主要是因为最近在学习Machine Learning的相关理论,其余其中的矩阵知识需要有清醒的认识,看完这篇文章,再回忆下研究生阶段的矩阵理论,一时之间竟然有种任督二脉打通的感觉,...

2013-01-29 11:30:14 1506 1

原创 MapReduce设计模式:Chaining

MapReduce设计模式:Chaining Chaining这种设计模式非常重要,主要是因为你通常无法通过单个MapReduce Job来完成工作;某些Job必须串行,因为前者Job的输出会成为下个Job的输入;某些Job可以并行,因为Job运行之间没有关系;有些Job的Mapper是对日志的重复处理,需要将代码规范化。不管怎么说,不能靠单个MapReduce程序就完成工作是我们的挑...

2013-01-24 21:12:35 174

原创 Linux命令详解 - grep

Linux命令详解 - grep按照我们以前学习Linux命令的套路,我们习惯于先man一下,看下系统怎么解释这个命令。详细的文档参考这里:http://www.gnu.org/software/grep/manual/grep.html系统的解释:grep, egrep, fgrep - print lines matching a pattern这个解释还是比较明晰的,打印...

2013-01-23 22:27:03 173

原创 MapReduce设计模式:Joins

 MapReduce设计模式:Joins Join这种模式在MapReduce中也是经常出现,首先我们借助于SQL中的概念来理解下Join的内容,对于熟悉SQL的读者可以快速略过该部分:假如由集合A和B,各有数个记录,记录的内容可以参考SQL中的行数据;其中A中id字段和B中的id字段相同,可以参看这里:http://www.w3schools.com/sql/sql_join...

2013-01-21 10:59:01 166

原创 MapReduce设计模式:Numerical Computation

 MapReduce设计模式:Numerical Computation 我们已经学习了Local Aggregation和Filtering这两种设计模式,本节我们继续学习另外一种:Numerical Computation。这种模式实际上是进行数学运算,即对于一系列输入(v1,v2,v3,...vn),f定义为某种运算法则,使得x=f(v1,v2,v3,...,vn),f运算法...

2013-01-18 17:21:32 194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除