- 博客(47)
- 资源 (2)
- 收藏
- 关注
换乘五种交通工具上下班
“分秒必争,利用好时间,就没什么问题。”这是“八十天环游地球”一书主人公福格先生一句自信的话。八十天环游地球,在没有飞机的情况下,你一定认为这很荒谬,但是福格先生做到了。先介绍一下起点与终点。我所居住的地方在余杭区临平东海水景城,工作的地方在滨兴路长河路口,不走高速的话,两者的路程大约是40公里。如果开车的话,正常情况下大约也需要一个小时,如果遇到事故堵车的话,时间会更长。我每天的...
2011-05-31 11:41:02
443
使用opencv作物件识别(一) —— 积分直方图加速HOG特征计算
方向梯度直方图(Histograms of Oriented Gradients,简称HOG特征)结合支持向量机( support vector machine, 简称SVM),被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。积分直方图可以用于快速计算原始图像矩形区域内的HOG特征。积分直方图的概念类似与viola和jones在脸部识别中所用的积分图像。下面的代码给出了,...
2011-04-26 09:45:07
323
2011年工作规划
目前公司的打算是组建在原本的中文算法、英文算法的基础上,增建一个基础算法组,主要处理语言无关的算法设计,就目前来看,即图形识别技术在互联网上的应用,目前正式的人员是三个研发工程师,另外还有两个实习生。2011年的主要工作包括:[list][*]商标识别技术以及侵权商品识别[*]反黄图片引擎[*]图片自动分类[*]手机拍照搜索[/list]关于这方面的商业需求,深...
2011-04-21 21:41:21
203
【翻译】Seeing With OpenCV - Part 1: Introduction to OpenCV
本文翻译自Robin Hewitt的《Seeing With OpenCV - A Five-Part Series》。正如标题所表达的那样,通过连载的五篇文章,我们将通过step by step的方式,实现一个人脸识别的程序,即从原始图片中检测脸部,并通过某种算法从样本库中筛选近似的肖像加以匹配,这是相当有用&有趣的应用。这是本系列的第一章,主要介绍OpenCV及其一些简单用法。...
2011-04-19 14:24:19
168
我的数学之美(三) —— 使用支持向量机进行预测
现实生活中充满着预测问题,即对未知世界的大胆猜测。我们基于什么根据来推测呢?最多的当然是已有的经验,即之前所做的一些已知结果的推测,这就是所谓的“有监督的学习”。这里,我举一个最简单的例子,就是公务员考试中那种最常见的数字推理题:1,4,9,16,?当然,你一眼就看出了这是一个平方序列,下一个数字一定是25,但是,这是唯一的答案吗?应该说,平方序列只是一个模型,比方说,我们...
2011-04-09 18:20:06
323
原创 非主流推理日剧《圈-套 TRICK》—— 日剧推荐
《射雕英雄传》教会了我一句话:“侠之大者,为国为民”,但如果反过来呢?刁蛮小民耍尽手段骗得的不过是区区钱财,而倘若一个社会连政府都整日想方设法利用政策剥夺老百姓的养老钱、医疗费、学费,甚至于你几乎被那种种条款搞得云里雾里不知东西,乖乖掏钱还一副感恩戴德的心情,用“圈套”这个词真是非常恰如其分,譬如我每月的所得税,究竟是用去支援四川灾区了呢,还是成为酒桌上的半瓶茅台呢?一个国家的良心已经坏掉...
2011-04-08 15:50:39
599
一个运用SVM进行回归的例子
[code="java"]#include "cv.h"#include "highgui.h"#include "ml.h"#include #include #include using namespace std;//以下例子用来拟合正弦曲线int main(int argc, char **argv){ int num_train =...
2011-04-08 11:29:43
1177
黄色-图片识别引擎
黄色-图片自动识别是一个涉及到图像处理、模式识别、机器学习、统计概率的综合领域,其关键技术包括:皮肤检测、人脸检测、连通区域分析、贝叶斯分类、支持向量机等等关于绿-坝是如何实现的,我一直很感兴趣。我这边也有一些相关的工作心得,拿出来与大家分享一下。[b]第一步是皮肤检测。[/b]肤色检测并不像我们想象那样简单,要做到不同光照下的肤色识别,并不是只要指定一个所谓的“肉色”的RGB...
2011-04-04 16:45:01
1177
原创 黄色-图片识别引擎的一些心得
黄色-图片自动识别是一个涉及到图像处理、模式识别、机器学习、统计概率的综合领域,其关键技术包括:皮肤检测、人脸检测、连通区域分析、贝叶斯分类、支持向量机等等[b]第一步是皮肤检测。[/b]肤色检测并不像我们想象那样简单,要做到不同光照下的肤色识别,并不是只要指定一个所谓的“肉色”的RGB区域那么容易。一般采用转换到HSV色彩空间+变换的方式获得概率模型。我在获得概率模型之后,用一个...
2011-04-02 17:49:44
973
红警3的雷人结局 —— 你选哪个?
我发现EA的游戏越来越对程序员/宅男的胃口了,呵呵……回想第一次打红警,好像是初中的时候了[img]http://dl.iteye.com/upload/attachment/447088/006da966-1574-3095-8b34-7e26731f27c3.jpg[/img][img]http://dl.iteye.com/upload/attachment/447090...
2011-03-25 17:59:32
239
使用标签云扩展自己的应用
标签云或文字云是关键词的视觉化描述,用于汇总用户生成的标签或一个网站的文字内容。标签一般是独立的词汇,常常按字母顺序排列,其重要程度又能通过改变字体大小或颜色来表现。所以标签云可以灵活地依照字序或热门程度来检索一个标签。大多数标签本身就是超级链接,直接指向与标签相联的一系列条目。互联网标签云(Tag Cloud)的概念最早由Stewart Butterfield在《Make a Flick...
2011-03-23 21:50:25
329
Pascal VOC Challenge —— 图像识别与物件分类的挑战
在计算视觉的领域中,Pascal VOC Challenge 就好比是数学中的哥德巴赫猜想一样。Pascal的全称是Pattern Analysis, Statical Modeling and Computational Learning。每年,该组织都会提供一系列类别的、带标签的图片,挑战者通过设计各种精妙的算法,仅根据分析图片内容来将其分类,最终通过准确率、召回率、效率来一决高下。这...
2011-03-22 13:35:32
397
深入浅出Lucene Analyzer
Analyzer,或者说文本分析的过程,实质上是将输入文本转化为文本特征向量的过程。这里所说的文本特征,可以是词或者是短语。它主要包括以下四个步骤:[list][*]分词,将文本解析为单词或短语[*]归一化,将文本转化为小写[*]停用词处理,去除一些常用的、无意义的词[*]提取词干,解决单复数、时态语态等问题[/list]Lucene Analyzer包含两个核心组...
2011-03-21 13:15:29
116
我的数学之美系列二 —— simhash与重复信息识别
在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”……随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能...
2011-03-16 18:09:14
427
我的数学之美系列一 真理有时可能变得黯淡 —— RANSAC算法与模型纠错
当程序与数学结合时,才是最美的,记得当初看到Google黑板报《数学之美》时,就有这种感觉。我的技术、文笔或许不如他们,但我只想展现我自己的数学之美 :lol: 给定两个点p1与p2的坐标,确定这两点所构成的直线,要求对于输入的任意点p3,都可以判断它是否在该直线上。初中解析几何知识告诉我们,判断一个点在直线上,只需其与直线上任意两点点斜率都相同即可。实际操作当中,往往会先根据已知的两点算...
2011-03-14 13:00:29
127
原创 我的数学之美(一)——RANSAC算法详解
给定两个点p1与p2的坐标,确定这两点所构成的直线,要求对于输入的任意点p3,都可以判断它是否在该直线上。初中解析几何知识告诉我们,判断一个点在直线上,只需其与直线上任意两点点斜率都相同即可。实际操作当中,往往会先根据已知的两点算出直线的表达式(点斜式、截距式等等),然后通过向量计算即可方便地判断p3是否在该直线上。生产实践中的数据往往会有一定的偏差。例如我们知道两个变量X与Y之间呈线性关...
2011-03-14 12:53:40
1903
JAVA网络爬虫的实现
记得在刚找工作时,隔壁的一位同学在面试时豪言壮语曾实现过网络爬虫,当时的景仰之情犹如滔滔江水连绵不绝。后来,在做图片搜索时,需要大量的测试图片,因此萌生了从Amazon中爬取图书封面图片的想法,从网上也吸取了一些前人的经验,实现了一个简单但足够用的爬虫系统。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,其基本架构如下图所示:[img]htt...
2011-03-08 22:24:45
369
JAVA实现的Locality Sensitive Hash
我在之前的博客已大致介绍了LSH的原理及其的适用场景,有兴趣的朋友可以移步至[url]http://grunt1223.iteye.com/blog/937600[/url]这里我给出它的具体实现及实验效果:[code="java"]private int dimention; //维度大小,例如对于sift特征来说就是128private int max; //所需向...
2011-03-07 11:36:12
230
LinkedList陷阱
前几天看到一篇文章,里面特意提到了,读取频繁使用ArrayList,增删频繁使用Linkedlist;并且在一个范例中,特意将ArrayList转化为LinkedList以提高末尾插入的效率。而事实上,问题并非如此简单。ArrayList与LinkedList的异同是我面试较常问的问题。大部分人可能都知道前者基于数组而后者基于链表(能答出双向链表自然更好),并且前者适合读取、后者适合插入删...
2011-03-06 20:44:32
132
两张图说明图像搜索原理
忽然发觉做图像自动分类的人还真不少,今天在网上发现两张猛图[img]http://dl.iteye.com/upload/attachment/429166/074f340e-6893-36ba-90e4-f20bc908f8b4.png[/img][img]http://dl.iteye.com/upload/attachment/429164/99dea463-303e-326...
2011-03-03 23:32:12
104
Locality Sensitive Hash
局部敏感哈希——Locality Sensitive Hash是一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构,诸如KD-Tree、SR-Tree相比,它较好地克服了Curse of Dimension,能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体(图像、音频)的相似性判断。请看下图:[img]http://dl.iteye.com/u...
2011-03-01 22:56:33
152
程序员,你的价值何在?
招聘成为了最近整个部门的大事,也成为我绩效考核的一个重要指标。当然,为了完成指标,动员了一切力量来找来简历面试。在此期间,猛然发觉,对工作、职场又有了新的理解。最近我所收录的3-9年JAVA工作经历、架构师或是高级开发工程师意向的程序员,有着十多个或者数十个SSH项目经历,但当问到核心技术、创新点等时,往往语塞。在我的理解来看,大部分的项目,只是业务上的创新,对开发人员来说,所面临的变化只...
2011-02-27 18:33:54
126
2011年规划
2011年,工作重点集中在图片方面,主要包括以下几个方面:[list][*]图片质量的提高,水印样式的优化[*]图片存储优化[*]图片特征提取、近重复图片检索、物件识别检索[*]上述研究成果希望能有更多产品、专利的产出[/list]学习方面,主要期待以下方面的成长:[list][*]Lucene[*]Java Advanced Image[*]一些图像特...
2011-02-25 12:25:10
72
K Nearest Neighbor问题的解决——KD-TREE Implementation
[b]命题一:[/b]已知的1000个整数的数组,给定一个整数,要求查证是否在数组中出现?[b]命题二:[/b]已知1000个整数的数组,给定一个整数,要求查找数组中与之最接近的数字?[b]命题三:[/b]已知1000个Point(包含X与Y坐标)结构的数组,给定一个Point,要求查找数组中与之最接近(比如:欧氏距离最短)的点。[b]命题四:[/b]已知1...
2011-02-24 12:33:58
130
漫谈计算机视觉
从输入图象到信息获取之间存在着巨大的认知空白,其间需要经过一系列十分复杂的信息处理和理解过程。想象一下,在火车站,我们可以从茫茫人群中精确地找出要迎接的伙伴,这远非现在的机器学习、搜索引擎所能解决的。这再次证明人类视觉系统的强大。对人类视觉过程本质的认识,乃是揭开机器视觉进步的关键。对计算机而言,所有的输入均是矩阵,机器视觉的目的,就是要从这些矩阵中获取有用的信息。计算机对图像内容的识别,...
2011-02-22 17:27:53
137
Java PriorityQueue with fixed size
这个问题来源于StackOverFlow:[url]http://stackoverflow.com/questions/1846225/java-priorityqueue-with-fixed-size[/url]为方便各位阅读,我把楼主的问题贴出来:[quote]Hi folks,I am calculating a large number of possi...
2011-02-18 11:08:21
157
Standard Kmean Cluster的实现[Java]
Kmean Cluster是一种机器学习中常用的无监督分析方法,例如,在最近的项目中,要从数以百万、千万计的高维图像特征中提取具有代表性的视觉词,就用到了此类技术。Kmean并不是一种高效的算法,理论可以证明,在欧几里得空间中的Kmean问题是NP-Hard(即使聚类数仅为2)。假设单个向量维度为d,向量数为n,目标聚类数为k,则算法的时间复杂度=n^(dk+1)*logn。kme...
2011-02-17 13:56:08
112
杀人不难——读《放学后》有感
作为东野的成名作,以及乱步小说的获奖作品,这部小说的确没有让我失望。东野的小说,想来给人一种平凡中见真谛的感觉,开始总感觉挺平淡的,最后被当头棒击,这种感觉相当震撼。《放学后》应是一部兼具本格以及社会量大流派特色的小说,既不似岛田庄司那般强调诡计、凝造悬疑气氛,也不想松本清张那样完全抛弃推理手法;更值得一提的是东野细腻的描述人物心理手法,尤其是女性,这一点在《嫌疑人犯X的献身》以及《圣女的救济》中...
2011-02-14 14:02:47
162
使用tesseract-ocr破解网站验证码
首先我得承认,关注tesseract-ocr, 是冲着下面这篇文章的噱头去的,26行groovy代码破解网站验证码[url]http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/[/url]当然,看了之后才知道,原来是调用...
2011-02-12 10:24:30
394
JAVA并发设计模式学习笔记(二)—— Single Threaded Execution Pattern
注:本文的主要参考资料为结城浩所著《JAVA多线程设计模式》。单线程执行模式(Single Threaded Execution Pattern)是最简单的多线程设计模式,几乎所有其他的模式都在不同程度上应用了该模式。先看一个程序,通过它可以体验多线程程序无法正确执行的场景,这里所写的是个关于“只能单个通过的门”的程序:有三个人频繁地、反复地经过一个只能容许单人经过的门,当人通过门的时候,...
2011-01-25 14:33:56
149
JAVA并发设计模式学习笔记(一)—— JAVA多线程编程
这个专题主要讨论并发编程的问题,所有的讨论都是基于JAVA语言的(因其独特的内存模型以及原生对多线程的支持能力),不过本文传达的是一种分析的思路,任何有经验的朋友都能很轻松地将其扩展到任何一门语言。注:本文的主要参考资料为结城浩所著《JAVA多线程设计模式》。线程的英文名Thread,原意指“细丝”。在多线程程序中,若要追踪各个线程的轨迹,就会派生出一系列错综复杂的乱线团。假设在运...
2011-01-17 12:34:48
105
也谈素数判断(修订版)
素数,又称质数、Prime Number,就是只能被1和它自己整除的正整数。素数本身的特殊性质决定了其应用的广泛性,比如作为哈希函数的基数或是加密函数共钥的参数。因此,素数的问题也是平时讨论中比较多的。一个比较常见的问题就是,如何判断一个数(假设为N)是否为素数?本文对常用的几种进行比较:[list][*]采用0到N-1的所有整数去尝试整除N,如果其间有任意的数能被N整除,说明N是合数...
2011-01-07 10:19:46
194
小谈素数
素数,又称质数、Prime Number,就是只能被1和它自己整除的正整数。素数本身的特殊性质决定了其应用的广泛性,比如作为哈希函数的基数或是加密函数共钥的参数。因此,素数的问题也是平时讨论中比较多的。一个比较常见的问题就是,如何判断一个数(假设为N)是否为素数?本文对常用的几种进行比较:[quote]第一种比较朴素的方法是采用0到N-1的所有整数去尝试整除N,如果其间有任意的数能...
2011-01-06 23:02:54
210
庖丁解”猫“——Tomcat Connector 源码分析
首先推荐一本好书,Budi Kurniawan以及Paul Deck所著的《How Tomcat Works》,这本书在豆瓣上的评分达到了史无前例的9.8分,而同为经典的《JAVA编程思想》以及GOF《设计模式》则为9.2分。序言是则精确定位了该书的读者群体,如下:[quote]How Tomcat Works is the only book that explains the inte...
2011-01-04 16:33:37
130
深入浅出事务之隔离级别
除了事务传播属性(可参考我的另一篇文章《深入浅出事务之传播属性》)之外,另一个需要开发人员关注的是事务的隔离级别,它决定了一个事务中所进行的更新操作对其它事务的可见性。事实上,DBMS、EJB、Spring都允许你设置不同的隔离级别,你必须保证它们相互统一、兼容;因此,应用服务器可能支持许多种隔离级别,但要使用其中的某一种,首先你必须保证你的数据库也支持它。事务的隔离性实质上是数据库的并发...
2010-12-30 12:48:12
119
深入浅出事务之传播属性
本文参考《java Transaction design strategies》大部分时候,我们都习惯了spring容器默认的配置,但有时候,我们需要知道更多……当使用声明式事务模型时,您必须告诉容器如何去管理事务,例如,何时开启一个事务?哪些方法需要事务?当前不存在事务的情况下,容器是否需要为其添加事务控制?事实上,Spring提供了一个bean —— TransactionAt...
2010-12-29 16:31:29
94
视觉特征抽取算法——SURF
目前公司PF系统(违禁图片机器审核)运营尚存在一些问题,主要包括:1.C++&opencv,第三方依赖较重,缺乏相应的C++工程师,维护成本较大2.图片识别引擎与对比算分机制接近黑盒,内部机制不易理解,例如像提高某张高危图片的激励(权重)因子等等3.针对公司特定业务的修改较为困难,例如增加对三维仿射的稳定性、增加图像签名缓存、特征匹配可视化等等在隐网项目的过程中,积累了关于...
2010-12-27 13:34:02
129
多数据源配置(Sping + Ibatis)
[code="java"]实际开发过程中,可能会遇到需要多数据源的场景,比如项目中之前使用的是单一的Oracle数据源,由于image表的数据量过大,因此需要将该表单独迁移至Corba-Mysql上。首先,在biz-datasource.xml上新增一项imageDataSource:[code="java"] ...
2010-12-27 12:21:43
113
超越编码 —— Learn things more than coding
六年前,当读博士和找工作两种选择摆在我面前的时候,我会毫不犹豫地选择前者;但时至今日,我想这将会是个艰难的选择。即使在校内GPA排到5%以上、TOEFL和GRE双满分、ACM获奖、在国际SCI期刊上发过paper,你都未必能在世界顶尖的学术殿堂——耶鲁大学深造;退一步说,即使有就学的机会,每年四万美金的学费也会让不少人望而却步;但是在今天,互联网为每一颗平凡的大脑提供了同样公平的机会,只要...
2010-12-01 18:52:55
147
一例线上数据库死锁的排查,以及引起的思考
某日,DBA反映线上数据库报警,检测到死锁,跟踪到发生死锁等待的两条SQL语句分别为:[code="java"]UPDATE WP_IMAGE_SORT SET GMT_MODIFIED = SYSDATE,IMAGE_IDS = #imageIds# || IMAGE_IDS WHERE MEMBER_ID = #memberId# AND ALBUM_ID = #albumId#[/c...
2010-12-01 15:28:41
206
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人