- 博客(405)
- 收藏
- 关注
原创 Tutorials on topics in machine learning
Assessing and Comparing Classification AlgorithmsCross Validation Andrew MooreThe Many Faces of ROC Analysis in Machine Learning Peter A. Flach, ICML'04ClassificationDecision trees Andre...
2014-03-20 22:19:16
439
原创 LingPipe White Papers
The following white papers discuss some of the mathematics and bakeoff evaluations of some of the LingPipe modules.Carpenter, Bob. 2011. Sampling, Modeling and Measurement Error in Inference fr...
2013-09-16 17:45:09
346
原创 Standord NLP组整理的NLP工具、资源列表
Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources Contents Tools: Machine Translation, POS Taggers, NP chunking, Sequenc...
2013-06-11 20:32:38
6952
原创 一些机器学习公开课
Big Data, Large Scale Machine Learning: [url]http://cilvr.cs.nyu.edu/doku.php?id=courses:bigdata:start[/url]3rd Lisbon Machine Learning School:[url]http://lxmls.it.pt/2013/[/url]Unsupervised Fea...
2013-04-21 19:32:47
253
原创 [zz]推荐系统-从入门到精通
为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。1. 中文综述(了解概念-入门篇)a) 个性化推荐系统的研究进展b) 个性化推荐系统评价方法综述2. 英文综述(了解概念-进阶篇)a) 2004ACMTo...
2013-04-20 14:38:07
207
2012年读的一些书
今年看了比较多的书,主要上班比较远,1个多小时,大部分都是在坐地铁看的。程序员系列1、《程序员修炼之道 : 从小工到专家 》:主要介绍了软件设计的一些原则,避免的问题,一个项目如何做好。一些高效的工具。2、《卓有成效的程序员》:主要介绍怎么样才能称为高效的程序员,介绍一些工具、语言打造一个高效的开发环境,提高开发效率。3、《黑客与画家》这本书比较杂,开始...
2013-03-02 08:45:53
177
原创 机器学习在公司的分享
机器学习在公司的分享,ppt见附件,主要简单介绍了机器学习:机器学习概念相关学科机器学习三大要素生成模型和判别模型频率派和贝叶斯派基本算法的直观理解模型选择模型组合-Ensemble MethodOnline LearningStructure LearningDeep Learning机遇和挑战机器学习适用场景...
2013-02-23 12:38:14
226
原创 Deep learning的一些教程[rz]
转载自http://baojie.org/blog/2013/01/27/deep-learning-tutorials/ Stanford Deep Learning wiki: http://deeplearning.stanford.edu/wiki/index.php/Main_Page 几个不错的深度学习教程,基本都有视频和演讲稿。附两篇综述文章和一副漫画。还...
2013-02-03 19:14:06
312
原创 [ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接
牛人主页(主页有很多论文代码)SergeBelongie at UC San DiegoAntonioTorralba at MITAlexeiFfros at CMUCeLiu at Microsoft Research New EnglandVittorioFerrari at Univ.of Edin...
2012-11-30 13:13:28
365
原创 Deep learning的一些有用链接
deeplearning tutorials:[url]http://deeplearning.net/tutorials/[/url][url]http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf[/url]Restricted boltzmann machine:[url]http://deeplearning.ne...
2012-11-12 19:09:10
170
原创 期望最大(EM)算法推导
X是一个随机向量,我们希望找到[img]http://latex.codecogs.com/gif.latex?\theta[/img]使得[img]http://latex.codecogs.com/gif.latex?P(X|\theta)[/img]取得最大值,这就是关于[img]http://latex.codecogs.com/gif.latex?\theta[/img]的最大似然估...
2012-08-05 19:54:33
361
原创 信息论学习总结(一)基础知识
我们考虑一下一个离散的随机变量x,当我们观察到它的一个值,能给我们带来多少信息呢?这个信息量可以看做是我们观察到x的这个值带来的惊讶程度。我们被告知一个不太可能发生的事发生了要比告知一个非常可能发生的事发生,我们获得信息要多。所以信息量的多少依赖于概率分布p(x),所以我们可以用关于p(x)的一个函数来建模信息量h(x).那什么函数模型适合表达呢?我们观察两个相互独立的事件x,y,我们观察...
2012-06-02 22:57:43
1877
原创 使用SGD(Stochastic Gradient Descent)进行大规模机器学习
[size=x-large]使用SGD(Stochastic Gradient Descent)进行大规模机器学习[/size]1 基于梯度下降的学习对于一个简单的机器学习算法,每一个样例包含了一个(x,y)对,其中一个输入x和一个数值输出y。我们考虑损失函数[img]http://latex.codecogs.com/gif.latex?l\(\hat{y},y\)[...
2012-05-11 23:01:29
574
原创 loss function
几种损失函数:对于回归问题:平方损失:[img]http://latex.codecogs.com/gif.latex?l\(y,\hat{y}\)=\(y-\hat{y}\)^2[/img]绝对值损失:[img]http://latex.codecogs.com/gif.latex?l\(y,\hat{y}\)=|y-\hat{y}|[/img][img]http://latex...
2012-05-11 22:54:34
206
原创 【zz】Vim的分屏
分屏启动Vim使用大写的O参数来垂直分屏。 vim -On file1 file2 ...使用小写的o参数来水平分屏。 vim -on file1 file2 ...注释: n是数字,表示分成几个屏。关闭分屏关闭当前窗口。 Ctrl+W c关闭当前窗口,如果只剩最后一个了,则退出Vim。 Ctrl+...
2012-04-26 11:13:20
120
原创 bash的几种for循环
1、罗列式[code]for VARIABLE in 1 2 3 4 5 .. Ndo command1 command2 commandNdone[/code][code]#!/bin/bashfor i in 1 2 3 4 5do echo "Welcome $i times"done[/code]2、使用ran...
2012-04-26 11:13:05
2699
原创 linux下面快速删除大量文件
和David.wu学的:如果用户有跟我一样,遇到要在linux下面删除大量文件夹的情况,如:需要删除100万个文件或者文件夹。这个时候,我们本来的删除命令rm -rf * 就不好使了,因为要等待的太久。所以必须要采取一些非常手段。我们可以使用Rsync来实现快速 删除大量文件。建立一个空的文件夹mkdir /root/blank用rsync删除目标目录rsyn...
2012-04-23 23:45:57
435
开源软件/代码链接合集
定向抓取/抽取:[url]http://www.scrapy.org[/url]流式处理工具:收集计算[url]https://github.com/nathanmarz/storm[/url]流数据统计[url]https://sites.google.com/site/countminsketch/[/url]中文处理:简繁转换cconv: [url]http://co...
2012-04-08 22:46:23
735
原创 Netbeans在ubuntu下配置
Netbeans在ubuntu下的字体实在太难看,需要美化一下,才能使用:1、配置monaco字体(当然雅黑字体也不错)monaco字体是苹果操作系统下的一款字体,很艺术性,个人感觉比较接近手写。代码用这种字体显示相当漂亮。以下操作均是在ubuntu的操作系统上,如果你是windows请自己谷歌 or 百度吧安装:1、先在/usr/share/fonts/下新建一个文件夹mac...
2012-03-18 11:42:41
241
mysql 和 postgresql 常见命令对照
一、通用区别postgresql 的客户端命令行 psql 命令在很大程度上接受很多和mysql类似的命令行参数,比如 -h 都是帮助。这里列举一些明显的区别:mysql -u 对应的是 psql -U,在psql里头用大写的U参数指定数据库用户。mysql -P (指定端口号)对应的是 psql -p,在psql里头用小写的p参数指定端口号。mysql -p 指定密码...
2012-02-03 16:23:49
826
原创 不要向上层暴露本层以及所依赖的接口细节
h1.背景在攻略全文搜索中,搜索的接口很丰富,并且将来可能会增加更多的需求。搜索业务类提供的接口既要能满足将来的扩展,又不能暴露底层的细节,还要避免功能组合带来接口的膨胀。h1.设计方法搜索接口的依赖关系,如下图:前端控制器 ----> 搜索业务方法 --> QP搜索APIQP主要需要一下参数控制搜索条件:普通的: key=key指定字段搜索: sear...
2012-02-02 16:50:49
254
原创 commons-lang StringUtils#split的坑
今天用StringUtils#split,陷入了前两个坑。需求是从数据库中查出用TAG分割的sights和citys,二者在位置上是对应的,然后根据sight和city查对应的景区。使用的时候先验证split之后的sights和citys的长度必须一致。并且city可能为""。1、 StringUtils#split会合并相邻的分割符,这个和String.split不一致。需要使用sp...
2011-12-31 10:11:37
568
原创 【zz】几个简单选项让你的Readline(Bash)更好用
Reddit上的一位仁兄贴出了他的readline手册学习成果,只需要在.inputrc中加入几个简单的选项,就可以让你的readline(Bash)界面变得更好用。set completion-ignore-case on这个选项很直白,自动补全时忽略大小写:来看个例子:$ lslongFileNameLINUX-2.6.37-4 longFileNam...
2011-10-10 23:08:00
265
原创 松本行弘的程序世界
全书涉及到程序设计的方方面面,买这边书的目的希望能看到看看Ruby设计抉择和最基本的原则。作者在这本书上阐述了Ruby最基本的设计原则::简洁,扩展,稳定。对设计block,而不是直接使用闭包,以及为什么是Mixin而不是多重继承(当然Minix是多重继承的一种实现而已)做了比较精彩的解释。另外对面向对象中的实现模式,比如Io语言的原型模式和基于类为模板的实现模式做了比较清晰的介绍。基于类模板的方...
2011-10-02 16:49:15
133
原创 Ruby HTTP/HTML parser相关资源
Net::HTTP: [url]http://ruby-doc.org/stdlib/libdoc/net/http/rdoc/classes/Net/HTTP.html[/url]Nokogiri: [url]http://nokogiri.org[/url]Mechanize: [url]http://mechanize.rubyforge.org/[/url]...
2011-09-28 12:04:57
207
pipe in -exec
一个简单的例子:将一堆的.txt文件,合并成一个文件,让每个文件的内容在合并的文件中占一行。可能想用以下的代码来解决:[code="bash"]find . -name "*.txt" -exec cat {} | tr -d '\n' \; -print[/code]但这是错误的,因为bash首先会解释|为管道,分割命令,即使加上\|也不行。一个解决方法时使用sh命令...
2011-09-27 22:35:05
190
原创 【zz】一个成功的Git分支模型
原文请见: http://www.juvenxu.com/2010/11/28/a-successful-git-branching-model/ 本文中我会展示一种开发模型,一年前该模型就已经被我用在所有的项目中(包括工作中的项目和私有项目),结果是非常成功的。我早就想为此写点东西,可直到现在才有时间。本文不会讲述任何项目的细节,只会涉及到分支策略和发布管理。本文使用Git...
2011-09-27 15:40:32
125
命令行词典
经常要查单词,所以利用qq dict api写了一个命令行词典工具:[code="ruby"]#!/usr/bin/env rubyrequire 'rubygems'require 'net/http'require 'json'def trans(q) url = "http://dict.qq.com/dict?q=#{URI.encode(q)}"...
2011-09-27 14:50:01
236
原创 【mark】每个电脑Geek应该知道的
The term ‘geek’, once used to label a circus freak, has morphed in meaning over the years. What was once an unusual profession transferred into a word indicating social awkwardness. As time has gone o...
2011-09-01 10:40:48
6640
原创 [zz]Unix调试的瑞士军刀:lsof
原文见:[url]http://heikezhi.com/2011/06/19/swiss-army-knife-of-unix-debugging-lsof/[/url]这是“你应该知道的Unix和Linux命令”系列的第三篇,在这篇文章中,我会介绍lsof这个工具,如果说netcat是进行网络诊断的瑞士军刀,那么lsof就是Unix调试的瑞士军刀。Lsof是遵从Unix哲学的典...
2011-08-31 10:33:39
149
原创 [zz]关于xargs,你可能不知道的
如果你曾经花了许多时间在Unix命令行上,那么或许你已经见过xargs了,如果你还没听过xargs,那就先让我来解释下,xargs是一个从标准输入或许参数并执行命令的程序。常见使用我常常见到将find和xargs组合使用以对find返回的文件列表执行某些操作。更新:根据Twitter和hacker news上的反馈,find是个很强大的命令,它自己也有-exec和-dele...
2011-08-29 23:05:04
131
让你更高效使用SSH
SSH有很多非常酷的特性,如何它是你每天的工作伴侣,那么我想你有必要了解以下16条高效使用SSH的秘籍,它们帮你节省的时间肯定会远远大于你用来配置它们的时间。1. 多条连接共享如果你需要在多个窗口中打开到同一个服务器的连接,而不想每次都输入用户名,密码,或是等待连接建立,那么你可以配置SSH的连接共享选项,在本地打开你的SSH配置文件,通常它们位于~/.ssh/config,然后添...
2011-08-29 22:22:30
255
Hadoop in Action简单笔记(一)
转载请标明出处: http://fuliang.iteye.com/blog/1136669第一部分 Hadoop 分布式的编程框架第一章 Hadoop 简介1、philosophy: move-code-to-data,适合数据密集性应用。2、SQL database VS Hadoop: 1) SCALE-OUT INSTEAD VS SCALE-UP ...
2011-08-10 00:03:45
190
自定义Jackson Json的Serializer
转载请标明出处: http://fuliang.iteye.com/blogs/1141293内容系统需要做分类、抽取等的评测工具,这个工具每次评测的对象需要的字段不一样,可以是一项或多项内容结合的评估。我们希望能够动态定义这些评测的字段,并且这些字段供给ExtJS的表格展现。ExtJS所consume的JS格式非常固定,所以需要转化成这种固定的格式才能正确展现。所以我们对评估对象ta...
2011-08-05 18:52:20
1123
原创 懂得人和计算机各自擅长做的事情很重要
今天偶然看了一下,一个运行了多年的电子合同系统,一直有人抱怨的近百种的合同模板和程序维护,发现这么多年竟然一直使用强迫计算机让人一样的方式做事情:合同每个模板开发一套复杂的程序,将存在数据库的合同数据的每一个字段,输出到对应表格的位置上,生成pdf的合同文件,打印,维护这近百套合同的程序可是件费力不讨好的事情。这个事情明显是分不清楚人擅长做什么事情,计算机擅长做什么事情导致的。这件事情其实...
2011-08-04 23:11:06
397
原创 使用scala.sys.process包和系统交互
在Java中我们可以使用Runtime.getRuntime().exec();来和系统交互。这个API过于底层,exec返回一个代表进程的对象,然后从中读取执行结果或者错误信息。并且如果不关心进程的输出,而没有把输入结果重定向到/dev/null,超过输出结果的buffer就会阻塞。scala.sys.process提供了shell的和系统交互的DSL,包括执行命令、逻辑操作、重定向、管道等...
2011-07-19 00:00:21
451
1
原创 构建自己的DSL之三 抓取文件管理
转载请标明出处:http://fuliang.iteye.com/blog/1127437我们抓取的网页抽取的结果是带有日期的文件,经常需要操作某个日期范围的文件,来进行统计,抽样,入库,所有需要一个方便的DSL来处理这件事情。我们希望制定几个条件就可以得到符合条件的文件,比如:[code="ruby"]data_set = CrawlerDataSet.with_cond d...
2011-07-18 23:26:21
214
构建自己的DSL之二 抓取文本处理
转载请标明出处:http://fuliang.iteye.com/blog/1122051公司的蜘蛛抓取的内容一个记录是以TAB分割的各个字段的值,并且随着各种分类得分、正文静态得分策略的添加,版本不断的演变。每次做抽样、分析、分类语料等文本处理都需要写一些样板式的代码,并且得到wiki查找指定版本每个字段的位置。构建一个好的DSL来自动处理这件事情能够省去很多重复的操作,只需要关注要处理...
2011-07-11 23:18:14
207
构建自己的DSL之一 Simple Crawler
转载请标明出处:http://fuliang.iteye.com/blog/1122008经常需要从网上抓取一些需要的内容做成语料,供分类使用。所以需要一个灵活的抓取、抽取程序-自己的DSL来做这件事,这样每次只需要写几行代码就能得到需要的内容。比如我比较希望以下几行代码就能把我的博客的内容给抓下来:[code="ruby"]crawler = Crawler.new1.u...
2011-07-11 22:08:56
367
原创 paper and book阅读
我微博每周读论文列表#每周读论文# 1、Parameter estimation for text analysis很好的介绍了参数估计的方法:最大似然、最大后验、贝叶斯估计,以及以LDA为例的文本参数估计方法以及Gibbs sampling实现。 #每周读论文# 2、A 250-year argument:belife, behavior, and the bootst...
2011-06-28 23:19:45
200
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人