- 博客(80)
- 资源 (30)
- 收藏
- 关注

转载 哈佛大学凌晨4点半的景象
哈佛老师经常给学生这样的告诫:如果你想在进入社会后,在任何时候任何场合下都能得心应手并且得到应有的评价,那么你在哈佛的学习期间,就没有晒太阳的时间。作为闻名于世的学府,哈佛大学培养了许多名人,他们中有33位诺贝尔奖获得者、7位美国总统以及各行各业的职业精英。究竟是什么使哈佛成为精英的摇篮?哈佛学子接受了什么样的精神和理念?这些问题吸引着成千上万的人去探知其中的答案。哈佛图书馆墙上的
2012-08-27 22:30:13
3658
转载 常见算法笔试或面试题
Problem 1 : Is it a loop ? (判断链表是否有环?)Assume that wehave a head pointer to a link-list. Also assumethat we know the list is single-linked. Can you come up an algorithm to checkwhether this link list
2014-09-09 22:24:48
1070
转载 计算机网络笔试题
1.网络结构在OSI参考模型中,物理层的作用是透明的传输比特流。对等实体在一次交互作用中传送的信息单位称为协议数据单元,它包括控制信息和用户数据两部分。上下层实体之间的接口称为服务访问点(SAP),网络层的服务访问点也称为网络地址,通常分为网络号和主机号。OSI参考模型分为:物理层、数据链路层,网络层,传输层,会话层,表示层,应用层。物理层涉及到在信道上传输的原始比特流。
2014-09-09 22:20:44
1509
转载 使用tortoisegit之后,桌面图标打了个蓝色的叉,怎么清除
因为你在桌面创建了git库了,一般没人在桌面创建版本库的。你把桌面隐藏的.git文件夹删除,就删除了这个库。你试试在你项目程序的目录下创建一个git库,里面的文件有可能出现图标,表示该文件属于版本管理的内容。
2014-02-24 10:41:09
4253
1
转载 c#验证码
//image1.aspx.cs 图形验证码设计protected void Page_Load(object sender, EventArgs e) { if (!IsPostBack) { // 4位数字的验证码 string str_ValidateCode = RndNum(4);
2014-02-22 22:00:18
1017
转载 如何搭建本地WordPress
我认为学习搭建本地WordPress是第一步也是至关重要的一步,我们以后所使用的博客可不再像QQ空间那样简单。必须经过本地的调试,确保正确无误后才可上线。千万不要没有经过本地调试的代码就直接上传到了服务器上,也没有备份,最后页面全部错位,惨不忍睹。为了避免这种悲剧的发生,我们应该在主题修改完成后放在本地先测试一下是否可用,看看效果如何。今天就来介绍一下如何在Windows下搭建本地Word
2014-02-21 22:40:37
1310
原创 ECSHOP info: Can't Connect MySQL Server(localhost:3306)!问题
问题:ECSHOP info: Can't Connect MySQL Server(localhost:3306)!这到底是什么问题啊?解决方法:连接Mysql服务器失败,仔细看一下网站根目录下的data/config.php里关于连接数据库的信息填写是否正确。
2014-02-20 08:17:48
19818
转载 wampserver出现You don't have permission to access / on this server.
wampserver出现You don't have permission to access / on this server.最近在安装最近版wampserver 2.2 d时发现安装好后启动服务器,访问localhost显示You don't have permission to access / on this server. 而在目录127.0.0.1下可以访问。造成这个问题的原
2014-02-17 15:06:53
5876
转载 Sql Server 2005 怎么就不能用Windows身份验证方式登录呢?
sql server 2005 自从装到我的电脑上始终无法使用Windows身份验证的方式登录,由于使用用户名和密码登录还算顺畅,所以一直忽略了这个问题,直到又有人提起这个问题才意识到,问题始终是问题,如果你去解决的话那么办法总比问题多,但是如果你不去解决的话,那么问题会慢慢的堆积如海,人与人之间的差距开始就是这点点滴滴,但当这点点滴滴汇聚成海的时候,那么差距就再也无法弥补上来了.所以还是老师的那
2014-01-26 18:53:14
1099
转载 Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space解决方法问题描述Exception in thread "main" java.lang.OutOfMemoryError: Java heap space解决方案[转]一直都知道可以设置jvm heap大小,一直用eclipse写/调
2013-08-07 12:35:08
1898
转载 推荐系统
pagerank做围脖局部影响力计算example接着上一篇的文章继续写。看了大家在resys china 和 新浪围脖上的评论,启发蛮多的。首先谢谢大家。这次的example中,只用了转发这一种信息作为权重的衡量标准。一共采集不到1w的用户量,平均每个用户1k的围脖信息。类似于google 的pagerank一样,用户A转发用户B的一条围脖,则相当于给用户B投了一票,
2013-07-26 19:48:36
1642
转载 推荐系统试验方法和指标
在介绍推荐系统指标之前,首先看一下计算和获得这些指标的主要实验方法。在推荐系统中,主要有三种评测推荐效果的实验方法,即离线实验(offline experiment) 用户调查(user study)和在线实验 (online experiment) . 1. 离线实验(1) 通过日日志收集用户行为数据,并按照一定的格式生成一个标注的数据集。 (2)按照一定的规则将数据集划分为训
2013-07-26 18:55:46
1749
转载 集体智慧编程 简介
Netflix 是一家在线租片儿的公司, 并且更具用户过去租片的行为来进行推荐, 他悬赏100万美元去奖励第一个把租片成功率提高10%的团队,以及5 万美元给这个团队的leader,通过提供用户以前租片的纪录给团队们进行推荐,现在做的最牛屄的团队是提高了 7%。 google 是意见搜索公司,创立当时有很多其他的公司, 但是google 通过其他网页对他的外链来进行排序,搜索质量远远好于
2013-07-26 18:53:47
1200
转载 Python 代码性能优化技巧
简介: 选择了脚本语言就要忍受其速度,这句话在某种程度上说明了 python 作为脚本的一个不足之处,那就是执行效率和性能不够理想,特别是在 performance 较差的机器上,因此有必要进行一定的代码优化来提高程序的执行效率。如何进行 Python 性能优化,是本文探讨的主要问题。本文会涉及常见的代码优化方法,性能优化工具的使用以及如何诊断代码的性能瓶颈等内容,希望可以给 Python 开
2013-04-08 21:55:56
1081
原创 北大acm1008题
#include#include "string"using namespace std;struct Haab {int day;int month;int year;};string haabname[19]={"pop","no","zip","zotz","tzec","xul","yoxkin","mol","chen","yax"
2013-03-31 14:25:08
1181
原创 北大acm1007题
#includeusing namespace std;struct DNA{char dna[50];int num;};int SortedNum(char temp[],int n){int i=0,j=0,totalnum=0;for (i=0;i{char t=temp[i];for (j=i+1;j{if (t
2013-03-31 12:40:29
1219
原创 python中pickle的用法
pickle是为了序列化/反序列化一个对象的,可以把一个对象持久化存储。比如你有一个对象,想下次运行程序的时候直接用,可以直接用pickle打包存到硬盘上。或者你想把一个对象传给网络上的其他程序,可以用pickle打包,然后传过去,那边的python程序用pickle反序列化,就可以用了。用法上,它主要有两个函数:load和dump,load是从序列化之后的数据中解出来,dump是把对象序
2013-03-05 19:22:20
3248
转载 The Dirichlet Distribution 狄利克雷分布 (PRML 2.2.1)
The Dirichlet Distribution 狄利克雷分布 (PRML 2.2.1)发表日期:2012 年 3 月 21 日分类: Academic 标签: PR&ML 作者: 恒. 4,110 views Dirichlet分布可以看做是分布之上的分布。如何理解这句话,我们可以先举个例子:假设我们有一个骰子,其有
2013-01-28 21:53:33
4051
转载 规则化和模型选择(Regularization and model selection)
1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络
2013-01-23 16:47:49
1035
转载 K-means聚类算法
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如
2013-01-23 16:45:34
979
转载 混合高斯模型(Mixtures of Gaussians)和EM算法
这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由
2013-01-23 16:43:37
963
转载 EM算法The EM Algorithm
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是
2013-01-23 16:40:50
726
转载 梯度下降3
批量梯度下降是一种对参数的update进行累积,然后批量更新的一种方式。用于在已知整个训练集时的一种训练方式,但对于大规模数据并不合适。随机梯度下降是一种对参数随着样本训练,一个一个的及时update的方式。常用于大规模训练集,当往往容易收敛到局部最优解。详细参见:Andrew Ng 的Machine Learning的课件(见参考1)可能存在的改进1)样本可靠度,特征完备性的
2013-01-21 15:11:56
922
原创 P,NP,NP-C,NP-hard问题
P问题:在确定的机器上,在多项式时间内能够解决的问题NP问题:在多项式时间内可以验证的判定问题。NP-Hard问题:问题A称为NP-Hard问题,如果对于任意一个NP问题,都可以在多项式时间内规约为A。NP-C:既是NP问题,又是NP-Hard问题#P:全是计数问题。NP都是判定问题,NP-Hard都是优化问题。
2013-01-21 14:37:33
2700
原创 图论中直径和半径
定义如下:在图G中d(u,v),定义为图中顶点u到顶点v的一条最短路径。如果没有路径d(u,v)定义为无穷大。直径:定义为max d(u,v),其中u,v是两个顶点。也就是图中距离最远的两个点。半径:1>离心率:对于任意一个顶点u,它的离心率定义为max d(u,v),对于任意的顶点v,记做:ϵ(u),半径:一个图的半径就是min ϵ(u) 其中
2013-01-21 14:17:40
20033
2
原创 聚类与分类的定义
1.聚类的概念:有一堆数据,讲这堆数据分成几类称为聚类。举个例子,比如有一堆水果,我们按着不同的特征分为:苹果,橘子,香蕉三类叫做分类。2.分类的概念:在聚类的前提下,拿来一个新水果,我们按着他的特征,把他分到橘子或者香蕉那类中,叫做分类。3.训练集和测试集一般就是把数据分成10份,9:19份作为训练数据,来学习一个模型;1份作为测试数据,来测试
2013-01-21 14:05:53
6595
1
原创 CELF优化的贪心算法
用一个例子说明如下:问题描述如下:从一组节点中,取出一组k个种子节点S,使得产生的增益最大。对任意的a属于A,f(a):a加入之后的增益。有如下一个表:初始扫描情况,第0轮,各个节点产生的增益情况。(用优先队列存储)1>.,取出第一行a1 ,10,0因为此时是第0轮,0==0加入S,因为第0轮加入a1时候增益最大。此时表如下:2>此时再取出首行,为
2013-01-21 13:56:47
8383
原创 子模的性质(submodular)
A是B的子集,则对于函数f(),如果:f(A+e)-f(A)>=f(B+e)-f(B)成立,则说f()函数是子模的。增益递减。例子如下:u={1,2,3,4,5,6,7,8}A={1,2,3}B={1,2,3,5,6}f(A)=|A| 集合A的个数所以:f(A+e)-f(A)>=f(B+e)-f(B),例如e={3,4,5}
2013-01-21 13:28:53
16354
转载 探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
简介: 智能推荐大都基于海量数据的计算和处理,然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的,在面对解决这个问题的过程中,大家提出了很多减少计算量的方法,而聚类无疑是其中最优的选择之一。 聚类 (Clustering) 是一个数据挖掘的经典问题,它的目的是将数据分为多个簇 (Cluster),在同一个簇中的对象之间有较高的相似度,而不同簇的对象差
2013-01-21 12:19:36
1306
转载 探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤
简介: 本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者高效的实现这些算法。 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密,并给出基于 Apache Mahout 的协同过滤算
2013-01-21 12:17:12
963
转载 探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
简介: 随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现,
2013-01-21 11:47:00
659
转载 go语言函数
这里要说一下是Go函数和一些其他语言不一样的地方1 函数格式不同?123456func GetMsg(i int) (r string) { fmt.Println(i) r = "hi" return r }
2013-01-17 21:33:36
691
原创 python学习1
1.开头加上# coding=gb2312,就可以使用中文了2.range(1,5)是大于等于1,小于53.python多行注释用三个''''''adfadfadsfadfadsfadsf'''4.单行注释用#
2013-01-11 21:20:27
579
转载 梯度下降算法
回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说w
2013-01-06 17:53:52
1440
转载 推荐系统相关算法(1):SVD
1. SVD简介 假如要预测Zero君对一部电影M的评分,而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分(包含M的评分)。那么能预测出Zero君对M的评分吗?答案显然是能。最简单的方法就是直接将预测分定为平均分。不过这时的准确度就难说了。本文将介绍一种比这个最简单的方法要准上许多,并且也不算复杂的算法。 SVD(Singular Value Decom
2013-01-05 12:48:38
2352
转载 矩阵分解在推荐系统中的应用
矩阵分解是最近几年比较火的算法,经过kddcup和netflix比赛的多人多次检验,矩阵分解可以带来更好的结果,而且可以充分地考虑各种因素的影响,有非常好的扩展性,因为要考虑多种因素的综合作用,往往需要构造cost function来将矩阵分解问题转化为优化问题,根据要考虑的因素为优化问题添加constraints,然后通过迭代的方法进行矩阵分解,原来评分矩阵中的missing vlaue可以通过
2013-01-02 19:49:33
6974
转载 互联网产品“冷启动”问题浅析
“冷启动”cold boot 是数据挖掘领域的一个专业术语,是指数据挖掘需要数据的积累,而产品初期数据为空或者数据量太少导致所需的数据量达不到要求。 数据挖掘领域的冷启动是个专业问题,我们不做分析,这里要讲的是互联网产品的“冷启动”问题。或者更准确的说是借用“冷启动”这个概念,来解释一下新产品如何获取第一批用户。 (一)为何会出现冷启动的问题 事实上,任何新创的互联网公司都面临“冷启动
2012-11-25 21:38:44
907
转载 面向对象编程设计模式--简单工厂模式讲解(历史上最简单明白的例子)
工作之余,在看资料过程中发现一个极易理解的简单工厂模式的例子,自己亲自试练一番,感觉对这个设计模式不熟悉的朋友,一看马上就知道是什么回事了。简单工厂模式根据提供给它的数据,返回几个可能类中的一个类的实例。通常它返的类都有一个共同的你类和共同的方法,但每个方法执行的任务不同,而且根据不同的数据进行了优化。简单工厂模式是属于创建型模式,又叫做静态工厂方法(Static Fact
2012-09-12 11:14:02
1919
转载 [设计模式整理笔记 九] 外观模式(Facade)
外观模式的设计是十分简单的,就是对一个对象进行包装,对外的的接口统一由外观类来进行提供。 主要由三部分组成:抽象外观类,具体外观类,其它使用者。例如:在上面的计算工资模块中, 不单单是一个系统需要个人实得工资, 集团内部网站也需要得到个人工资信息供员工自行查询? 这时候就需要做一个接口供集团内部网来使用。而且返回的是一个最后的数据, 不需要在外观类的外面任何系统进行计算或者组装, 方便日后维护。下
2012-09-12 11:12:55
826
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人