- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 Spark的下一代引擎-Project Tungsten启示录
由于公司被收购的原因,之前分享的博客违反了公司的制度,只好将这篇科普类的文章独立出来放到自己的博客下面与大家交流。2015年我们一直在利用Spark做实时交互式分析系统方面的尝试,我们在不断受到Spark启发的同时,也不得不忍受尚处于青春期的Spark性格中的叛逆。特别是在不断优化系统性能过程中,发现我们实际上是在做与Project Tungsten同样的工作。不知道是该庆幸选对了方向,还是该...
2018-04-16 13:57:38
396
原创 为什么不把EM算法说清楚?
EM算法在很多博客中都被描述成最为简单的算法,甚至不能称之为算法。但是我却花费了很长时间试图来理解这个70年代就被提出来的概念,却也是雾里看花,似懂非懂的状态。其中很大的一个原因就在于虽然讲述Expectation-Maximization文章虽然很多,但是其中很多作者都是在不加咀嚼地转述Andrew Ng视频,或者就是把Jensen不等式一列,炫技一把就撤了。每次都是眼看着要明白了,结果突然之间...
2018-04-14 17:19:30
1198
原创 SVM基本数学原理
SVM理解的视频和文章其实看过好几遍,每次都能看懂,但是过了一个月细节就模糊了,想到如果要掌握一个知识,最好的方式用自己的语言陈述一遍。1. Loss FunctionSVM与其他分类算法最大的不同在于loss function,也就是找到一个margin最大的分割线: argmaxw,b argminx∥wTx+b∥wTw−−−−√argmaxw,b arg...
2018-04-14 17:17:55
1107
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人