lightty-优快云博客

转载 Softmax Regression

原文：http://www.cnblogs.com/tornadomeet/archive/2013/03/22/2975978.htmlsoftmax，互斥k个logistic，多分类-------------------------------------------------------------------------------------------------

2016-08-21 15:19:41 639

转载再谈机器学习中的归一化方法（Normalization Method）

转自 http://blog.youkuaiyun.com/zbc1090549839/article/details/44103801min-max, z-score 等=========================================================机器学习、数据挖掘工作中，数据前期准备、数据预处理过程、特征提取等

2016-08-21 14:56:07 2908

原创 CNN RNN 杂想

CNN，卷积，其实就是映射，这个空间，映射到另一个空间。然而，卷积的移动，这个很有趣。就像是我们所处的时间，其实是有时间这个维度的，但是我们感受不到。但是这个卷积的移动，就把时间的这个维度，也映射到了另一个空间！Batch取全部时，看到的是只有一个曲面，速度快，但不是最优。所以，有小一点的batch，随机性。但是，只取一个的时候，SGD，随机性有时会很大，难以收敛CNN，多少个output ch

2016-08-07 11:36:20 691

原创个人理解的在线推荐

个人理解的：为什么要做因为离线的数据太大了，比如user_id * item_id 的量级太大，不可能都离线算好，等到某个 user 来的，直接查表，得到item_id的排序因为需要根据一些在线的特征来计算（当然也会有离线的特征），比如当前浏览的类目、当前时间段、等等之类的因为需要实时反映一些新的模式。以前的模型，可能是事先算好的，一周更新一次（在线用的，也是这个事先算好的模型，只是会有部

2016-07-26 11:11:02 492

转载机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size

原文：http://blog.youkuaiyun.com/u012162613/article/details/44265967本文是《Neural networks and deep learning》概览中第三章的一部分，讲机器学习算法中，如何选取初始的超参数的值。（本文会不断补充）学习速率（learning rate，η）运用梯度下降算法进行优化时，权重的

2016-07-26 10:58:09 1093

原创 Batch Normalization & Layer Normalization

Batch Normalization：原文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 详细说明：http://blog.youkuaiyun.com/hjimce/article/details/50866313 理解：http://blog.csdn.ne

2016-07-26 10:50:26 7797

转载机器学习中的范数规则化之（一）L0、L1与L2范数

原文：http://blog.youkuaiyun.com/zouxy09/article/details/24971995主要思想：1. L0，是非0的个数，但是NP，所以一般选择L12. L1，稀疏，特征选择3. L2，防止过拟合====== 原文 ===========机器学习中的范数规则化之（一）L0、L1与L2范数zouxy09

2016-07-26 10:01:58 606

转载 batch-GD， SGD， Mini-batch-GD， Stochastic GD， Online-GD -- 大数据背景下的梯度训练算法

原文地址：http://www.cnblogs.com/richqian/p/4549590.html另外有一篇讲batch size的：https://www.zhihu.com/question/32673260主要思想：1. batch，全部样本的梯度都算了，累加一起，做变化。2. mini-batch，一部分一部分的样本，做变化。

2016-07-26 09:58:45 546

转载 bootstrap, boosting, bagging 几种方法的联系

转：http://blog.youkuaiyun.com/jlei_apple/article/details/8168856这两天在看关于boosting算法时，看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍，以下是搜索得到的原文，没找到博客作者的地址，在这里致谢作者的研究。一并列出一些找到的介绍boosting算法的

2016-07-25 14:15:52 406

原创知识图谱

周末讲座的内容，很泛的了解。另外，transE 优化目标，头实体+关系=尾实体，低维语义表示，这想法赞。建模！或者参考这篇：http://www.tuicool.com/articles/jEzmUv一开始的是one hot，cout base distribute representation，再到后面的同一语义空间第一方面，三元组的形式 transE 优化目标，头实体+关系=尾

2016-07-11 00:35:31 2675

原创 CNN for NLP

强烈推荐：http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp论文：《Convolutional Neural Networks for Sentence Classification》Tensorflow 实现blog：http://www.wildml.com/2015/12/imple

2016-07-04 01:04:01 951

原创 Word2Vec Sent2Vec

好好研究了下Word2Vec和Sent2Vec的代码，推导了下公式，花费了不少的时间，不过清晰了很多。源代码参考：https://github.com/klb3713/sentence2vec理论上是分两部分，首先是进行Word2Vec的，获得词向量，以及权重等。然后再进行Sent2Vec的处理，基于已有的Word Vector以及网络权重。Word2Vec预测目标总体的目标是，词向量作为输入（

2016-07-04 00:03:29 7770

转载 Stanford 中文分词

http://nlp.stanford.edu/software/segmenter.shtmlhttps://github.com/jiekechoo/NLPStudyhttp://blog.youkuaiyun.com/shijiebei2009/article/details/42525091貌似实际用的不是这几篇。中间2. github上那篇，是怎么在maven中使用，通过properties文件

2016-06-27 10:10:55 5929

转载 JAVA WordVec 的一个实现

https://github.com/NLPchina/Word2VEC_java这个亲测可用。然而 Word2VEC 里的 sum 函数错了，返回的是引用，要修改。下面逻辑还是有点绕，有想法了再改得清爽点：private float[] sum(float[] center, float[] fs) { if (fs == null) { if (cen

2016-06-27 09:55:35 947

转载 python scikit learn 模板

原文： http://blog.youkuaiyun.com/zouxy09/article/details/48903179代码如下：#!usr/bin/env python # -*- coding: utf-8 -*-import sysimport osimport timefrom sklearn import metricsimport numpy as npimport cPick

2016-06-27 09:46:39 627

转载语法分析器

这个博客，讲得很细了： http://codemany.com/blog/reading-notes-the-definitive-antlr4-reference-part1/ANTLR v4是一款强大的语法分析器生成器，可以用来读取，处理，执行和转换结构化文本或二进制文件。通过文法文件，ANTLR可以自动生成词法分析器、语法分析树和树遍历器。两种。词法和语法。词法是大写的，语法是小写的。类似正

2016-06-22 21:27:40 2103

原创平滑

有很多种。一次的平均前面窗口的均值问题是：需要记录多个数不能对近期的数进行加权指数 Ft+1 = alpha * Xt + (1 - alpha) * Ft前一项即可，前一项预测与真实的差异二次的平均针对上面一次的问题，进行二次再求平均，然而问题也是类似的指数布朗：算两次指数平滑，求得对应的at，bt，然后预测m期后结果霍尔特前一期的参数直接修正布

2016-05-31 23:45:01 436

转载指代消歧

综述性文章《指代消解的基本方法和实现技术》。分为两种，回指和共指。有很多种处理方法。开始的是基于规则的方法，比如hobbs（类似往前找合适的NP）、中心理论（向回看中心、向前看中心），然后基于句法的方法，以及基于训练集的方法，比如SVM等等（Deep Learning等也可以用了http://tcci.ccf.org.cn/conference/2013/NLPCC2013papers/

2016-05-26 10:28:22 3004

转载 java 注解与动态代理

注解： http://josh-persistence.iteye.com/blog/2226493 http://wiki.jikexueyuan.com/project/java-reflection/java-at.html http://www.infoq.com/cn/articles/cf-java-annotation动态代理： http://www.kancloud.cn/d

2016-05-25 09:42:24 877

转载 spring boot

http://www.cnblogs.com/huang0925/p/4347690.html上面这篇文章讲得很清楚。结合我们自己做的。比如之前的HSF，一个大project，里面有很多不同的模块，但是，其实，大部分的模块我们都不需要做的。所以，一般就是copy别人的项目作为模板，在上面小修小改，但是并不明白它的机制，只是用了而已。而Spring boot，微服务，这个现在很多，清爽很多。我们不需要

2016-05-24 23:12:30 465

转载推荐算法综述

好多好长… 不想写，粘贴链接先吧… http://www.infoq.com/cn/articles/recommendation-algorithm-overview-part01http://www.infoq.com/cn/articles/recommendation-algorithm-overview-part02http://www.infoq.com/cn/articles/r

2016-02-20 22:21:52 433

转载异常检测

参考： http://blog.163.com/zhoulili1987619@126/blog/static/353082012015211114642546/统计方法假设正常点和异常点都有一个分布。开始时，所有点都服从正常点的分布。然后，假设一个点是异常点，则它服从异常点的分布。计算前后的似然差异。如果较大，那的确是异常点。继续计算下一个点。基于邻近度的离群点检测k近邻，计算距离基于密度

2016-02-20 21:14:04 736

转载不均衡数据处理

参考文献： 1. http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ 2. http://www.36dsj.com/archives/35137跟之前遇到的问题有点类似，作弊店家的检测。可以扩大数据样本吗？试着改变你的绩效标准不需要相

2016-02-20 17:10:12 471

转载 python爬虫介绍

参考链接： 1. 授人以渔的文章，里面讲到爬虫一般怎么做，分布式的时候怎么办等：http://www.zhihu.com/question/20899988 2. scrapy的文章，介绍了怎么用 http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html 3. urllib的文章，比较粗鲁的方式 http://www.

2016-02-15 16:03:01 634

转载极大似然

这两篇文章不错： 1. http://www.zhihu.com/question/20447622 2. http://blog.youkuaiyun.com/bingduanlbd/article/details/24384771总的来说，就是已经知道了观测到样本x1,x2,x3…xn，假设参数都是已知的，然后为了使得这些样本的可能性最大，再反过来求参数取值应该满足的条件。利用已知的样本结果，反推最有

2015-12-05 16:40:33 530

转载 simrank

http://m.blog.youkuaiyun.com/blog/yangxudong/24788137就是，节点的相似性，是由他们的邻居的相似性来决定的。迭代的过程。为了处理完全二部图的计算得到结果问题，而引入了evidence。为了处理边权重的问题，又引入了另一个函数。一、算法应用背景计算广告学(Computational Advertis

2015-10-29 15:05:13 5008 2

原创贝叶斯

这两篇文章写得超赞：朴素贝叶斯： http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html 贝叶斯网络： http://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html这篇文章写得很全： http://www.k

2015-10-21 14:25:55 1245 1

原创多数据源冲突的解决

原来是个研究点： http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.89.8378&rep=rep1&type=pdf http://wenku.baidu.com/link?url=WpepFZM0oYBDvUvOIjMsPuj3O23_8Cm1YjqC-G5Eke8Yc_DSvsNe96nMcLTEVExKH9VS89NbHIn

2015-10-19 10:28:17 1286

转载 lucene

原链接：http://www.cnblogs.com/xing901022/p/3933675.html#_labelTop主要是两部分。一是建立索引。有Directory建立目录，有IndexWriter进行写，其中的内容，就用Document封装起来（会有field的概念）。二是进行查询。有Term进行查询项的封装，有IndexSearcher进行搜索，

2015-10-15 16:44:16 397

转载 Collaborative Filtering

Paper链接：http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf 博客链接：http://www.xysay.com/amazon-item-to-item-collaborative-filtering-207.html分布式处理重编号功能是，为了避免数据倾斜，以及本来是string类型的id就是分桶，每个桶预设了默认的起

2015-09-28 16:47:36 451

转载 simHash

好文章！simhash讲得很透彻，而且应用时候，怎么建索引的方法也有介绍。原文链接：http://grunt1223.iteye.com/blog/964564在工作学习中，我往往感叹数学奇迹般的解决一些貌似不可能完成的任务，并且十分希望将这种喜悦分享给大家，就好比说：“老婆，出来看上帝”…… 随着信息爆炸时代的来临，互联网上充斥着着大量的近重复信息，有效地识别

2015-09-25 10:35:21 875

转载 Canopy聚类

http://my.oschina.net/liangtee/blog/125407 http://blog.sina.com.cn/s/blog_618985870101dw5j.html一般说法是，可以作为K-means的前一步，算出有多少个聚类，以及质心的初始位置。大致伪代码如下：定义一个对象集合objlist,一个存放所有聚类中心的集合canopieswhile(objlist非空) {

2015-09-19 14:52:55 1267

原创熵、基尼不纯度、KL、互信息

对于一个分类，判断它本身是否“纯净”，可以用熵、基尼不纯度遇到两个分布的距离，可以用KL判断两个量的相关性，比如某个特征与某个类别是否有关系，可以用互信息（其实它与条件熵，差不多）基本内容：http://www.cnblogs.com/TtTiCk/archive/2008/06/25/1229480.html连续型的时候：http://blog.youkuaiyun.com/daringpig/

2015-09-19 14:44:25 2855

原创《菊与刀》感触

闲杂书，好久没看过了。日本人，挺奇怪，也挺不奇怪的个体。 + 各就其位，按照等级尊卑 + 天皇的绝对地位 + 报恩，接受了别人的恩情 + 道义，为了荣誉感

2015-09-08 21:59:04 618

转载 LSH

SimHash参考：http://blog.youkuaiyun.com/heiyeshuwu/article/details/44117473如下图，规定是多少位，对各个特征进行hash。将所有特征的进行累加。累加结果，若该位大于0则为1，小于0则为0。可以基于海明距离还计算是否相似还有查询的问题。空间换时间，取前若干位作为indexMinHash参考：http://blog.youkuaiyun.com/s

2015-08-29 23:33:58 659

原创从DT到Random Forest、GBDT

决策树基础的内容，参考的链接： http://leijun00.github.io/2014/09/decision-tree/ID3最基础的决策树，多叉树，仅能处理离散型值采用信息增益来处理 g(D,A)=H(D)−H(D|A)会偏向有较多属性的feature，容易过拟合C4.5对ID3的改进对于连续值，进行划分。假设是min，k1，k2，…，max的划分，依次尝试划分的方式，计算最佳

2015-08-29 23:16:35 2007

转载 [转]你应该掌握的七种回归技术

[转]你应该掌握的七种回归技术

2015-08-24 11:40:53 1915

原创 TextRank

关键字嗯，模型比较简单，限定一个窗口（比如一个词前后k个词，认为他们具有连接），然后计算PageRank 得到的就是这段话里的关键字，据说比TFIDF要靠谱点关键句主要也是句子间连接关系的限定，paper里计算句子的相似度：然后一样计算：看清楚累加的下标 Vj 是 In(Vi) 的集合，分母是 Out(Vj) 的集合参考信息参考1 参考2 代码论文

2015-08-06 15:08:00 834

转载 IR的评价指标-MAP,NDCG和MRR

Map：相关性，1 or 0，计算排序后rank值NDCG：设定相关性等级（2^5-1, 2^4-1…）计算累计增益值（嗯，就累加起来）计算折算因子log(2)/log(1+rank) （越靠前的，越容易被点击）归一化到NDCG，为了不同等级上的搜索结果的得分值容易比较 4.1. 首先计算理想list的MaxDCG 4.2 相除即可MRR：”把标准答案在被评价系统给出结果中的排

2015-07-27 06:35:11 14061

原创 item-based algorithm

6.2 章节 http://openresearch.baidu.com/u/cms/www/201210/30144944cqmu.pdf;jsessionid=27FE07729A54FE415012B97849E2D1C1其实，最主要的只是这样一张图： 101,102是每个item的id最左边的大矩阵（记为A），用户的共现矩阵（co-occurrence matrix）。以购买为例子，购买

2015-07-27 06:12:39 662

alphabeta剪枝算法的C++实现下棋程序

alphabeta剪枝算法的C++实现下棋程序。有注释，易理解。

2011-11-10

C++实现遗传算法GA（包含多种选择算子变异算子实现）

自己写的遗传算法代码，有注释，易理解。同时，强大之处，在于，里面将遗传算法一般用到的选择算子（轮盘赌、随机、锦标赛）等方式都进行了实现，以及加上多种的变异算子。是理解遗传算法，以及它的各种实现方式的好例子（自己吹嘘下，呵呵）。

2011-11-10

数据结构课程的C++行编辑器

数据结构课程的C++行编辑器，对字符串的处理，等等功能。有详细注释。

2011-11-10

huffman哈夫曼编码的C++实现

数据结构课上，自己使用C++实现的huffman哈夫曼编码。有注释，较易理解。

2011-11-10

基于JAVA、数据库架设旅游信息网站

本系统为开发数据库应用的系统，主要着重在于数据库的建立以及使用。在数据库使用方面，考虑到MySql与Java的良好兼容性等，使用了MySql来建立。在开发Web应用界面方面，使用MyEclipse软件，使用struts技术。成功架设一个界面良好，功能强大的旅游信息网站。有较好的交互操作。并且，具有doc文档介绍，包括设计以及使用的说明，详尽。

2011-05-24

剪枝算法的五子棋C++程序

使用C++编写的五子棋程序，算法用的是alpha-beta剪枝，用MFC的框架

2010-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人