- 博客(226)
- 资源 (6)
- 收藏
- 关注
转载 Softmax Regression
原文:http://www.cnblogs.com/tornadomeet/archive/2013/03/22/2975978.htmlsoftmax,互斥k个logistic,多分类-------------------------------------------------------------------------------------------------
2016-08-21 15:19:41
639
转载 再谈机器学习中的归一化方法(Normalization Method)
转自 http://blog.youkuaiyun.com/zbc1090549839/article/details/44103801min-max, z-score 等=========================================================机器学习、数据挖掘工作中,数据前期准备、数据预处理过程、特征提取等
2016-08-21 14:56:07
2908
原创 CNN RNN 杂想
CNN,卷积,其实就是映射,这个空间,映射到另一个空间。然而,卷积的移动,这个很有趣。就像是我们所处的时间,其实是有时间这个维度的,但是我们感受不到。但是这个卷积的移动,就把时间的这个维度,也映射到了另一个空间!Batch取全部时,看到的是只有一个曲面,速度快,但不是最优。所以,有小一点的batch,随机性。但是,只取一个的时候,SGD,随机性有时会很大,难以收敛CNN,多少个output ch
2016-08-07 11:36:20
691
原创 个人理解的在线推荐
个人理解的:为什么要做 因为离线的数据太大了,比如user_id * item_id 的量级太大,不可能都离线算好,等到某个 user 来的,直接查表,得到item_id的排序因为需要根据一些在线的特征来计算(当然也会有离线的特征),比如当前浏览的类目、当前时间段、等等之类的因为需要实时反映一些新的模式。以前的模型,可能是事先算好的,一周更新一次(在线用的,也是这个事先算好的模型,只是会有部
2016-07-26 11:11:02
492
转载 机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size
原文:http://blog.youkuaiyun.com/u012162613/article/details/44265967本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习算法中,如何选取初始的超参数的值。(本文会不断补充)学习速率(learning rate,η)运用梯度下降算法进行优化时,权重的
2016-07-26 10:58:09
1093
原创 Batch Normalization & Layer Normalization
Batch Normalization: 原文:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 详细说明:http://blog.youkuaiyun.com/hjimce/article/details/50866313 理解:http://blog.csdn.ne
2016-07-26 10:50:26
7797
转载 机器学习中的范数规则化之(一)L0、L1与L2范数
原文:http://blog.youkuaiyun.com/zouxy09/article/details/24971995主要思想:1. L0,是非0的个数,但是NP,所以一般选择L12. L1,稀疏,特征选择3. L2,防止过拟合====== 原文 ===========机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09
2016-07-26 10:01:58
606
转载 batch-GD, SGD, Mini-batch-GD, Stochastic GD, Online-GD -- 大数据背景下的梯度训练算法
原文地址:http://www.cnblogs.com/richqian/p/4549590.html另外有一篇讲batch size的:https://www.zhihu.com/question/32673260主要思想:1. batch,全部样本的梯度都算了,累加一起,做变化。2. mini-batch,一部分一部分的样本,做变化。
2016-07-26 09:58:45
546
转载 bootstrap, boosting, bagging 几种方法的联系
转:http://blog.youkuaiyun.com/jlei_apple/article/details/8168856这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址,在这里致谢作者的研究。一并列出一些找到的介绍boosting算法的
2016-07-25 14:15:52
406
原创 知识图谱
周末讲座的内容,很泛的了解。 另外,transE 优化目标,头实体+关系=尾实体,低维语义表示,这想法赞。建模!或者参考这篇:http://www.tuicool.com/articles/jEzmUv一开始的是one hot,cout base distribute representation,再到后面的同一语义空间第一方面,三元组的形式 transE 优化目标,头实体+关系=尾
2016-07-11 00:35:31
2675
原创 CNN for NLP
强烈推荐:http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp论文:《Convolutional Neural Networks for Sentence Classification》Tensorflow 实现blog:http://www.wildml.com/2015/12/imple
2016-07-04 01:04:01
951
原创 Word2Vec Sent2Vec
好好研究了下Word2Vec和Sent2Vec的代码,推导了下公式,花费了不少的时间,不过清晰了很多。源代码参考:https://github.com/klb3713/sentence2vec理论上是分两部分,首先是进行Word2Vec的,获得词向量,以及权重等。然后再进行Sent2Vec的处理,基于已有的Word Vector以及网络权重。Word2Vec预测目标总体的目标是,词向量作为输入(
2016-07-04 00:03:29
7770
转载 Stanford 中文分词
http://nlp.stanford.edu/software/segmenter.shtmlhttps://github.com/jiekechoo/NLPStudyhttp://blog.youkuaiyun.com/shijiebei2009/article/details/42525091貌似实际用的不是这几篇。中间2. github上那篇,是怎么在maven中使用,通过properties文件
2016-06-27 10:10:55
5929
转载 JAVA WordVec 的一个实现
https://github.com/NLPchina/Word2VEC_java这个亲测可用。 然而 Word2VEC 里的 sum 函数错了,返回的是引用,要修改。下面逻辑还是有点绕,有想法了再改得清爽点:private float[] sum(float[] center, float[] fs) { if (fs == null) { if (cen
2016-06-27 09:55:35
947
转载 python scikit learn 模板
原文: http://blog.youkuaiyun.com/zouxy09/article/details/48903179代码如下:#!usr/bin/env python # -*- coding: utf-8 -*-import sysimport osimport timefrom sklearn import metricsimport numpy as npimport cPick
2016-06-27 09:46:39
627
转载 语法分析器
这个博客,讲得很细了: http://codemany.com/blog/reading-notes-the-definitive-antlr4-reference-part1/ANTLR v4是一款强大的语法分析器生成器,可以用来读取,处理,执行和转换结构化文本或二进制文件。通过文法文件,ANTLR可以自动生成词法分析器、语法分析树和树遍历器。两种。词法和语法。词法是大写的,语法是小写的。类似正
2016-06-22 21:27:40
2103
原创 平滑
有很多种。一次的 平均 前面窗口的均值问题是: 需要记录多个数不能对近期的数进行加权指数 Ft+1 = alpha * Xt + (1 - alpha) * Ft前一项即可,前一项预测与真实的差异二次的 平均 针对上面一次的问题,进行二次再求平均,然而问题也是类似的指数 布朗: 算两次指数平滑,求得对应的at,bt,然后预测m期后结果霍尔特 前一期的参数直接修正布
2016-05-31 23:45:01
436
转载 指代消歧
综述性文章《指代消解的基本方法和实现技术》。 分为两种,回指和共指。 有很多种处理方法。 开始的是基于规则的方法,比如hobbs(类似往前找合适的NP)、中心理论(向回看中心、向前看中心),然后基于句法的方法,以及基于训练集的方法,比如SVM等等(Deep Learning等也可以用了http://tcci.ccf.org.cn/conference/2013/NLPCC2013papers/
2016-05-26 10:28:22
3004
转载 java 注解与动态代理
注解: http://josh-persistence.iteye.com/blog/2226493 http://wiki.jikexueyuan.com/project/java-reflection/java-at.html http://www.infoq.com/cn/articles/cf-java-annotation动态代理: http://www.kancloud.cn/d
2016-05-25 09:42:24
877
转载 spring boot
http://www.cnblogs.com/huang0925/p/4347690.html上面这篇文章讲得很清楚。结合我们自己做的。比如之前的HSF,一个大project,里面有很多不同的模块,但是,其实,大部分的模块我们都不需要做的。所以,一般就是copy别人的项目作为模板,在上面小修小改,但是并不明白它的机制,只是用了而已。而Spring boot,微服务,这个现在很多,清爽很多。我们不需要
2016-05-24 23:12:30
465
转载 推荐算法综述
好多好长… 不想写,粘贴链接先吧… http://www.infoq.com/cn/articles/recommendation-algorithm-overview-part01http://www.infoq.com/cn/articles/recommendation-algorithm-overview-part02http://www.infoq.com/cn/articles/r
2016-02-20 22:21:52
433
转载 异常检测
参考: http://blog.163.com/zhoulili1987619@126/blog/static/353082012015211114642546/统计方法假设正常点和异常点都有一个分布。开始时,所有点都服从正常点的分布。然后,假设一个点是异常点,则它服从异常点的分布。计算前后的似然差异。如果较大,那的确是异常点。继续计算下一个点。基于邻近度的离群点检测k近邻,计算距离基于密度
2016-02-20 21:14:04
736
转载 不均衡数据处理
参考文献: 1. http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ 2. http://www.36dsj.com/archives/35137跟之前遇到的问题有点类似,作弊店家的检测。可以扩大数据样本吗?试着改变你的绩效标准不需要相
2016-02-20 17:10:12
471
转载 python爬虫介绍
参考链接: 1. 授人以渔的文章,里面讲到爬虫一般怎么做,分布式的时候怎么办等:http://www.zhihu.com/question/20899988 2. scrapy的文章,介绍了怎么用 http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html 3. urllib的文章,比较粗鲁的方式 http://www.
2016-02-15 16:03:01
634
转载 极大似然
这两篇文章不错: 1. http://www.zhihu.com/question/20447622 2. http://blog.youkuaiyun.com/bingduanlbd/article/details/24384771总的来说,就是已经知道了观测到样本x1,x2,x3…xn,假设参数都是已知的,然后为了使得这些样本的可能性最大,再反过来求参数取值应该满足的条件。利用已知的样本结果,反推最有
2015-12-05 16:40:33
530
转载 simrank
http://m.blog.youkuaiyun.com/blog/yangxudong/24788137就是,节点的相似性,是由他们的邻居的相似性来决定的。迭代的过程。为了处理完全二部图的计算得到结果问题,而引入了evidence。为了处理边权重的问题,又引入了另一个函数。一、算法应用背景计算广告学(Computational Advertis
2015-10-29 15:05:13
5008
2
原创 贝叶斯
这两篇文章写得超赞: 朴素贝叶斯: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html 贝叶斯网络: http://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html这篇文章写得很全: http://www.k
2015-10-21 14:25:55
1245
1
原创 多数据源冲突的解决
原来是个研究点: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.89.8378&rep=rep1&type=pdf http://wenku.baidu.com/link?url=WpepFZM0oYBDvUvOIjMsPuj3O23_8Cm1YjqC-G5Eke8Yc_DSvsNe96nMcLTEVExKH9VS89NbHIn
2015-10-19 10:28:17
1286
转载 lucene
原链接:http://www.cnblogs.com/xing901022/p/3933675.html#_labelTop主要是两部分。一是建立索引。有Directory建立目录,有IndexWriter进行写,其中的内容,就用Document封装起来(会有field的概念)。二是进行查询。有Term进行查询项的封装,有IndexSearcher进行搜索,
2015-10-15 16:44:16
397
转载 Collaborative Filtering
Paper链接:http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf 博客链接:http://www.xysay.com/amazon-item-to-item-collaborative-filtering-207.html分布式处理重编号功能是,为了避免数据倾斜,以及本来是string类型的id就是分桶,每个桶预设了默认的起
2015-09-28 16:47:36
451
转载 simHash
好文章!simhash讲得很透彻,而且应用时候,怎么建索引的方法也有介绍。原文链接:http://grunt1223.iteye.com/blog/964564在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别
2015-09-25 10:35:21
875
转载 Canopy聚类
http://my.oschina.net/liangtee/blog/125407 http://blog.sina.com.cn/s/blog_618985870101dw5j.html一般说法是,可以作为K-means的前一步,算出有多少个聚类,以及质心的初始位置。大致伪代码如下:定义一个对象集合objlist,一个存放所有聚类中心的集合canopieswhile(objlist非空) {
2015-09-19 14:52:55
1267
原创 熵、基尼不纯度、KL、互信息
对于一个分类,判断它本身是否“纯净”,可以用熵、基尼不纯度遇到两个分布的距离,可以用KL判断两个量的相关性,比如某个特征与某个类别是否有关系,可以用互信息(其实它与条件熵,差不多) 基本内容:http://www.cnblogs.com/TtTiCk/archive/2008/06/25/1229480.html连续型的时候:http://blog.youkuaiyun.com/daringpig/
2015-09-19 14:44:25
2855
原创 《菊与刀》感触
闲杂书,好久没看过了。 日本人,挺奇怪,也挺不奇怪的个体。 + 各就其位,按照等级尊卑 + 天皇的绝对地位 + 报恩,接受了别人的恩情 + 道义,为了荣誉感
2015-09-08 21:59:04
618
转载 LSH
SimHash参考:http://blog.youkuaiyun.com/heiyeshuwu/article/details/44117473如下图,规定是多少位,对各个特征进行hash。将所有特征的进行累加。累加结果,若该位大于0则为1,小于0则为0。 可以基于海明距离还计算是否相似还有查询的问题。空间换时间,取前若干位作为indexMinHash参考:http://blog.youkuaiyun.com/s
2015-08-29 23:33:58
659
原创 从DT到Random Forest、GBDT
决策树基础的内容,参考的链接: http://leijun00.github.io/2014/09/decision-tree/ID3最基础的决策树,多叉树,仅能处理离散型值采用信息增益来处理 g(D,A)=H(D)−H(D|A)会偏向有较多属性的feature,容易过拟合C4.5对ID3的改进对于连续值,进行划分。假设是min,k1,k2,…,max的划分,依次尝试划分的方式,计算最佳
2015-08-29 23:16:35
2007
原创 TextRank
关键字嗯,模型比较简单,限定一个窗口(比如一个词前后k个词,认为他们具有连接),然后计算PageRank 得到的就是这段话里的关键字,据说比TFIDF要靠谱点关键句主要也是句子间连接关系的限定,paper里计算句子的相似度: 然后一样计算: 看清楚累加的下标 Vj 是 In(Vi) 的集合,分母是 Out(Vj) 的集合参考信息参考1 参考2 代码 论文
2015-08-06 15:08:00
834
转载 IR的评价指标-MAP,NDCG和MRR
Map:相关性,1 or 0,计算排序后rank值NDCG: 设定相关性等级(2^5-1, 2^4-1…)计算累计增益值(嗯,就累加起来)计算折算因子log(2)/log(1+rank) (越靠前的,越容易被点击)归一化到NDCG,为了不同等级上的搜索结果的得分值容易比较 4.1. 首先计算理想list的MaxDCG 4.2 相除即可MRR:”把标准答案在被评价系统给出结果中的排
2015-07-27 06:35:11
14061
原创 item-based algorithm
6.2 章节 http://openresearch.baidu.com/u/cms/www/201210/30144944cqmu.pdf;jsessionid=27FE07729A54FE415012B97849E2D1C1其实,最主要的只是这样一张图: 101,102是每个item的id最左边的大矩阵(记为A),用户的共现矩阵(co-occurrence matrix)。以购买为例子,购买
2015-07-27 06:12:39
662
C++实现遗传算法GA(包含多种选择算子变异算子实现)
2011-11-10
基于JAVA、数据库架设旅游信息网站
2011-05-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人