
javaweb基于内容的图片搜索
这是一个建立在lire基础上的图片搜索
6点A君
记录我学习的知识的地方~
展开
-
利用htmlunit和jsoup来实现爬取js的动态网页实践(执行js)
这两天在做一个有关于网络爬虫的系统但是呢,一开始爬的时候就发现问题,js的动态页面的爬不下来网上找了好多方法,google也问了,主要还是提到htmlunit,于是就用了,在pairsfish的csdn博客上,我找到了方法:/**HtmlUnit请求web页面*/ WebClient webClient = new WebClient();原创 2015-12-06 23:41:50 · 37532 阅读 · 3 评论 -
javaweb基于内容的图片搜索引擎(5)_问题的分析与后话
前一篇最后已经表明,我的图片搜索有问题,确实有问题,为啥会有这些呢?虽然搜索的精度都出来了的,并且也达到了预期的结果。为啥有些东西会显示不出来呢?主要原因:就是源网站的限制,我这样明显是在偷流量,那个网站允许爬虫恶意来爬,占资源呢。但是,既然爬不到,那为啥又能够显示呢?当然原网站通过脚本代码限制了,一个固定的ip来访问的频率。如果超过一定的频率就会限制的,或者直接直接不允许外网原创 2016-04-12 00:43:33 · 1649 阅读 · 4 评论 -
javaweb基于内容的图片搜索引擎(4)_前台检索以及结果
图片也得到了,索引也通过lire成功建立了,剩下的,当然就是显示了,以及业务功能实现了。前面已经说了,这个系统是javaweb,主要在struts2,spring,hibernate和tomcat服务器,mysql数据库服务器下开发的。前台页面一个是imagesearch.JSP,主要就是供本地上传和图片url,类似于百度的识图。而而后,图像文件就会以流的形式传到后台,后台在利用l原创 2016-04-12 00:09:30 · 2573 阅读 · 4 评论 -
javaweb基于内容的图片搜索(3)_lire后台使用
经过了爬图,我得到了图片,以及图片的原网址,这个时候就该处理了。图片处理本来是一件很复杂的事,而且各种特征也很多,而我仅仅是用的lire,别人第三方开源的jar包。这里介绍下lire:Lucene Image REtrievallire是一个开源的基于图片内容的java类库,它提供了一种简单地方式来检索图像和照片,这是基于图像的颜色和纹理特征来实现的。lire基于图像的内容和特点产原创 2016-04-11 23:48:28 · 4098 阅读 · 3 评论 -
javaweb基于内容的图片搜索(2)_java爬虫
(源码后期会放在github上)这一个博文主要就是爬图;怎样爬图呢?或者从哪儿去爬图呢?这是首先要考虑的问题。开始我想到了百度,就是百度图片,利用下面的url:http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=146原创 2016-04-11 13:51:18 · 2844 阅读 · 4 评论 -
javaweb基于内容的图片搜索(1)_系统思路
这个项目时我在2015年12月,在实验室导师的推荐下写的。开始的时候,并不认为我自己可以完成。但随后通过网上找知识,了解到了一些技术。主要就是运用爬虫技术和检索技术。开始我做的时候,也了解到国内外一些已经成型的内容的搜索引擎,这里就介绍百度识图吧,自我感觉这个还是做得很不错的。主要是可以从本地上传,或者把图片链接贴上去,我所做的小引擎也是这样的。可以本地或者网络图片。接下来原创 2016-04-11 13:23:02 · 1842 阅读 · 2 评论