- 博客(13)
- 资源 (2)
- 收藏
- 关注
转载 mapreduce 作业优化
map阶段优化参数:io.sort.mb(default 100)当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该
2014-01-02 10:57:23
812
转载 “最小编辑距离(Minimum Edit Distance)”
一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。课件汇
2013-12-29 14:17:20
1188
转载 Flickr Tag Recommendation based on Collective Knowledge
本篇论文包含两个方面:通过对Flickr的统计,对用户如何使用标签和用户提供的标签有哪些种类进行了研究;另一方面,基于前一方面的分析,提出了四种不同的标签推荐策略,可以被用户用来向图片增加标签。结果表明,推荐的关联标签具备效率高、多层次的特点。1 相关背景 多媒体标注对大规模检索系统来说非常有用。目前基于内容的图片检索系统在不断演进,但是却不能很好的解决人类之间的语义鸿沟
2013-12-20 21:01:50
697
转载 nlp, ml, 学习书单
水木上的machine learning书单:http://www.newsmth.net/bbscon.php?bid=5&id=34859&ftype=11weibo上@王威廉最近有人询问教材的问题,在此我列12本北美比较常用的机器学习/自然语言处理/语音处理经典书籍。欢迎各位补充。http://weibo.com/1657470871/zpZ87mhND还有以前整理的一个书单
2013-11-23 19:43:39
1107
转载 python的nltk中文使用和学习资料汇总帮你入门提高
分类: Python2013-09-30 11:13 443人阅读 评论(1) 收藏 举报自然语言处理nltkpython目录(?)[+]nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Pyth
2013-11-23 19:13:10
1173
转载 mahout的安装及实验
ref: http://www.cnblogs.com/duzl/archive/2012/05/18/2507470.htmlApache Mahout 简介http://www.ibm.com/developerworks/cn/java/j-mahout/ 一.安装mahout需要的软件:1,jdk 1.6或以上 ,下载地址不提供了。2,maven 软件项目管理工
2013-10-13 00:06:37
1013
转载 各大推荐引擎资料汇总
ref: http://blog.youkuaiyun.com/xceman1997/article/details/7941163视频类Netflix: 很多方法的融合。可以参考我翻译的blog。Hulu: 主要是item based CF。参考官方博客上的文章。Youtube: 开始是random walk,后来改为类似item based CF的方法。这是
2013-10-12 23:52:56
770
转载 数据挖掘著名学者的网站
原文地址:http://blog.youkuaiyun.com/dllian/article/details/7530581 韩家炜http://www.cs.uiuc.edu/~hanj/著名数据挖掘书籍,《数据挖掘概念和技术》作者,在DM界久负盛名。他的个人主页里面有很多他的papers,都非常经典;还有他所教授的课程,可以下载课件学习。Jian Pei
2013-10-12 23:42:40
1012
转载 公开课可下载资源汇总
原文地址:http://blog.coursegraph.com/%e5%85%ac%e5%bc%80%e8%af%be%e5%8f%af%e4%b8%8b%e8%bd%bd%e8%b5%84%e6%ba%90%e6%b1%87%e6%80%bb微博上经常有同学分享一些公开课资源,包括可下载的网盘资源,课件资源等等,但是时间长了就忘了在哪里了。另外Coursera官
2013-10-12 23:41:05
1448
转载 Large-scale Parallel Collaborative Filtering for the Netflix Prize
ref: http://blog.youkuaiyun.com/waitingfotime/article/details/8983152最近使用ALS-WR分解矩阵,忙里偷闲,简单的翻译了这篇paper,很是佩服作者的思路。第一次翻译,各种不符,轻拍。建立一个专门讨论数据挖掘,推荐算法等的群,推荐系统之Mahout 13591891,欢迎大家加入一起讨论。摘要: 众多推荐系统使
2013-10-10 21:05:07
971
转载 GraphChi—让你迅速提升计算机性能
GraphChi是从卡内基 - 梅隆大学的GraphLab项目之一。可以让一台普通PC处理N倍于以往的数据。特点便是能然硬盘当作内存来使用(包括出传统硬盘或固态硬盘)。项目Google Code地址 以及完整介绍GraphChi Java版项目地址
2013-10-10 16:18:24
2154
转载 Collaborative filtering with GraphChi
原文链接:Collaborative filtering with GraphChi本文是GraphChi平台的协同过滤工具箱的快速指南。到目前为止,已经支持ALS(最小二乘法)、SGD(随机梯度下降)、bias-SGD(带偏置的随机梯度下降)、SVD++、NMF(非负矩阵分解)、SVD(restarted Lanczos、one sided Lanczos,svd可以
2013-10-10 12:13:59
1244
转载 最优化之路
ref: http://www.cnblogs.com/joneswood/archive/2012/03/11/2390529.html进入算法研发部,在大致了解部门的项目构成,主要职责之后,我意识到最优化算法在各个项目组中都具有重要的作用,例如CTR预估、排序等。然而,由于自己在读博期间除了“逻辑回归”以外,没有系统参与过涉及最优化的项目,因此在还没有分配到具体任务的情况下,首先自发地对最
2013-10-09 23:37:17
1377
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人