aodeng9367-优快云博客

转载 Linux下C语言字符串操作之字符串转数值型

1，字符串转整型（一）#include <stdlib.h>int atoi(const char *nptr);字符串转化为整型long atol(const char *nptr);字符串转化为长整型long long atoll(const char *nptr);long long atoq(const char *nptr);字符串转化为long long 类型英文...

2013-03-30 08:55:00 884

转载 lucene 3.4 contrib/facet 切面搜索

solr 有facet search ,BOBO也有；现在lucene3.4之后也有了，这个是贡献版本，在apache 官方的包里面有提供，这种功能对于分组统计和类别统计是一个很好的帮手；有了这个就不用羡慕solr了，不是我抗拒solr，只是像我们公司有时间让我们开发的情况下，我更偏向于底层点的api开发，lucene更得心应手。再说现在的solr没有近实时搜索，听...

2013-03-28 10:40:00 294

转载在ubuntu上安装全文搜索中文分词Coreseek/sphinx及和Rails集成

Sphinx(狮身人面像) 想必大家都比较了解，就不作介绍了，不了解的童鞋可以自己Google。原生的Sphinx只支持中文，所以这里重点介绍支持中文分词的 Coreseek。注意：Coreseek 3.2 后，只有安装 Coreseek 就可以了,它对LibMMSeg和sphinx做了整合，不用再安装原生Sphinx。(3.2前是要安装原生Sphinx，还要装补丁,非常繁琐)...

2011-10-17 08:41:00 321

转载 solr3.4 高亮(highlight),拼写检查(spellCheck),匹配相似(moreLikeThis) 应用实践

Solr 是基于lucene的检索服务器。能够很快的搭建检索服务，并且提供的很多实用的组件。例如高亮(highlight)、拼写检查(spellCheck)和匹配相位(moreLikeThis)。下面我将在我工作中接触到的一些实践与大家分享。(我当前使用的solr 版本是 3.4，使用tomcat 7.0.21) (如果你也使用的是 tomcat 服务器，而且查询请求包含中文的话...

2011-10-17 08:31:00 252

转载堆与堆排序

堆排序与快速排序，希尔排序一样都是时间复杂度为O(N*logN)的几种常见排序方法。学习堆排序前，先讲解下什么是数据结构中的二叉堆。二叉堆的定义二叉堆是完全二叉树或者是近似完全二叉树。二叉堆满足二个特性： 1．父结点的键值总是大于或等于（小于或等于）任何一个子节点的键值。 2．每个结点的左子树和右子树都是一个二叉堆（都是最大堆或最小堆）。当父结点的键值总是大于或等于任何一个子节点...

2011-08-22 16:34:00 166

转载 Trie树|字典树的简介及实现

Trie,又称字典树、单词查找树,是一种树形结构，用于保存大量的字符串。它的优点是：利用字符串的公共前缀来节约存储空间。相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.故Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法建树的话,可能会好点. 其基本性质可以归纳为：1. 根节点不包含字符，除根节点外每一个节点都...

2011-08-19 10:08:00 109

转载快速排序

快速排序由于排序效率在同为O(N*logN)的几种排序方法中效率较高，因此经常被采用，再加上快速排序思想----分治法也确实实用，因此很多软件公司的笔试面试，包括像腾讯，微软等知名IT公司都喜欢考这个，还有大大小的程序方面的考试如软考，考研中也常常出现快速排序的身影。总的说来，要直接默写出快速排序还是有一定难度的，因为本人就自己的理解对快速排序作了下白话解释，希望对大家理解有帮助，...

2011-08-15 11:35:00 273

转载归并排序的实现

归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。首先考虑下如何将将二个有序数列合并。这个非常简单，只要从比较二个数列的第一个数，谁小就先取谁，取了后就在对应数列中删除这个数。然后再进行比较，如果有数列为空，那直接将另一个数列的数据依次取出即可。 //将有序数组a[]和b[]合并到c[]中 void Meme...

2011-08-11 13:45:00 1539

转载 Lucene.net搜索结果排序（单条件和多条件）

Lucene支持对搜索条件的排序，一个条件或者多个条件，以及是升序还是降序，部分代码如下： stringINDEX_STORE_PATH=Server.MapPath("index");//INDEX_STORE_PATH为索引存储目录 stringkeyword=TextBox2.Text;//...

2011-08-10 10:42:00 150

转载直接选择排序及交换二个数据的实现

直接选择排序和直接插入排序类似，都将数据分为有序区和无序区，所不同的是直接播放排序是将无序区的第一个元素直接插入到有序区以形成一个更大的有序区，而直接选择排序是从无序区选一个最小的元素直接放到有序区的最后。设数组为a[0…n-1]。 1. 初始时，数组全为无序区为a[0..n-1]。令i=0 2. 在无序区a[i…n-1]中选取一个最小的元素，将其与a[i]交换...

2011-08-09 15:54:00 163

转载冒泡排序

冒泡排序是非常容易理解和实现，以从小到大排序举例：设数组长度为N。 1．比较相邻的前后二个数据，如果前面数据大于后面的数据，就将二个数据交换。 2．这样对数组的第0个数据到N-1个数据进行一次遍历后，最大的一个数据就“沉”到数组第N-1个位置。 3．N=N-1，如果N不为0就重复前面二步，否则排序完成。按照定义很容易写出代码： //冒泡排序1 void BubbleSort1(i...

2011-08-09 15:42:00 174

转载直接插入排序的三种实现

直接插入排序(Insertion Sort)的基本思想是：每次将一个待排序的记录，按其关键字大小插入到前面已经排好序的子序列中的适当位置，直到全部记录插入完成为止。设数组为a[0…n-1]。 1. 初始时，a[0]自成1个有序区，无序区为a[1..n-1]。令i=1 2. 将a[i]并入当前的有序区a[0…i-1]中形成a[0…i]的有序区间。 3. ...

2011-08-09 15:41:00 188

转载希尔排序的实现

希尔排序的实质就是分组插入排序，该方法又称缩小增量排序，因DL．Shell于1959年提出而得名。该方法的基本思想是：先将整个待排元素序列分割成若干个子序列（由相隔某个“增量”的元素组成的）分别进行直接插入排序，然后依次缩减增量再进行排序，待整个序列中的元素基本有序（增量足够小）时，再对全体元素进行一次直接插入排序。因为直接插入排序在元素基本有序的情况下（接近最好情况），效率是...

2011-08-09 15:35:00 325

转载几乎所有食物的英文翻译

水果类（fruits）：西红柿 tomato 菠萝 pineapple 西瓜watermelon 香蕉banana 柚子 shaddock （pomelo）橙子orange苹果apple 柠檬lemon樱桃 cherry 桃子peach 梨 pear 枣Chinese date （去核枣 pitted date ）椰子coconut 草莓strawberry树莓 r...

2010-09-25 14:41:00 313

转载 MFC遍历文件夹里的文件

遍历文件夹关键函数--递归法1 2 void CFileSearchDlg::TraverseFolder( const CString& strDir,std::vector<CString>& vecFile ) 3 { 4 WIN32_FIND_DATA FindFileData; 5 6 CString strDirTmp; ...

2010-09-17 15:29:00 177

转载 Designing algorithms for Map Reduce

Since the emerging of Hadoop implementation, I have been trying to morph existing algorithms from various areas into the map/reduce model. The result is pretty encouraging and I've found Map/Redu...

2010-09-06 15:13:00 265

转载 Solr 使用自定义 Query Parser

原文出处：http://blog.chenlb.com/2010/08/solr-use-custom-query-parser.html 由于 Solr 默认的 Query Parser 生成的 Query 一般是 “短语查询”，导致只有很精确的结果才被搜索出来。大部分时候我们要分词后的 BooleanQuery。一年半前有篇关于 solr 使用自定义的 Que...

2010-08-30 10:39:00 111

转载通过 Solr 取得分词

原文出处：http://blog.chenlb.com/2010/08/get-solr-analysis-word.html Solr 1.3 只有 AnalysisRequestHandler 处理器，只能提交文档来观察文档的分词结果。 Solr 1.4 有了对字段的分词。FieldAnalysisRequestHandler 可以对某个字段或字段类型的分词器...

2010-08-30 10:38:00 188

转载 Solr 使用 Log4j

原文出处：http://blog.chenlb.com/2010/08/solr-with-log4j.html Solr 默认是用 Jdk 的日志输出。还好 Solr 是使用 slf4j 日志库，可以方便换用其它日志输出。solr 使用 log4j 也不难。重新生成 solr.war 把 solr.war 解压，然后把 log4j.properties 放到 W...

2010-08-30 10:38:00 282

转载世界海底光缆分布图

作者：阮一峰日期： 2010年8月17日 ...

2010-08-20 09:38:00 279

转载 Solr Cache使用介绍及分析

本文将介绍Solr查询中涉及到的Cache使用及相关的实现。Solr查询的核心类就是SolrIndexSearcher，每个core通常在同一时刻只由当前的SolrIndexSearcher供上层的handler使用（当切换SolrIndexSearcher时可能会有两个同时提供服务），而Solr的各种Cache是依附于SolrIndexSearcher的，SolrIndexSear...

2010-08-02 08:58:00 170

转载 lucene分布式索引

Lucene是个高度优化的倒转索引搜索引擎。它将倒转的索引存储在定制的文件格式中，文件格式被高度优化以确保能被搜索器快速的加载以及有效的搜索。Lucene产生这些结构以致索引几乎完全的被预先计算好 Lucene 通过使用Directory接口的实现来存储索引,注意不要将Directory与java.io混淆了.FSDirectory 是Directory接口的一个标准的实现,它将索引保...

2010-07-13 17:02:00 158

转载移动视觉搜索

个人定义的移动视觉搜索是指：以移动终端捕获的图像作为检索项，通过互联网检索感兴趣信息的一种信息检索方式。目前，我看到了5个提供移动视觉搜索服务的公司：分别是google goggles, amazon snaptell, nokia point&find, kooaba和oMoby。如下图。（图片来自cvpr2010，点击查看论文） google goggles我感觉是个...

2010-07-09 16:38:00 428

转载服务器日志法网站分析的原理及优缺点

【前言】　　应朋友们的要求，我还是写一篇关于服务器日志法进行网站分析的原理以及它的优缺点是什么。请朋友们注意，网站服务器日志法并不容易进行，初学者，以及在绝大多数情况下，进行以用户行为分析为核心的网站分析，用不到服务器日志法。不过，作为网站分析历史不可分割的一部分以及重要的基础篇章，服务器日志法仍然值得一书。下面的这篇文章也是我要撰写的书中截取的内容（我要快马加鞭快快写了，已经...

2010-07-09 16:37:00 395

转载谷歌眼中的搜索未来

谷歌这些年的一系列举动，从Android到Chrome，从语音搜索到谷歌TV，都是其对未来搜索认识的投影。许多人曾经怀疑，搜索技术还能走多远，甚至前几年，还有人说，搜索能够做的90%的事情都已经做完了。但谷歌里的极客们认为，这种观点是固守杜威分类时代传统思维的短视和浅薄之见。谷歌的极客们有资格不屑于这种观点，因为他们最了解搜索的科学。“搜索是一个可以不断发展几百年的科学”，谷歌副总裁...

2010-07-09 16:34:00 147

转载 memcached完全剖析–1. memcached的基础

翻译一篇技术评论社的文章，是讲memcached的连载。fcicq同学说这个东西很有用，希望大家喜欢。发表日：2008/7/2 作者：长野雅广(Masahiro Nagano) 原文链接：http://gihyo.jp/dev/feature/01/memcached/0001 我是mixi株式会社开发部系统运营组的长野。日常负责程序的运营。从今天开始，将分几次针对最近在Web...

2010-06-26 10:21:00 84

转载基于ProActive的分布式并行Web Spider的设计与实现

摘要：由于互联网具有海量信息并且快速增长，提高搜索引擎的信息采集器Web Spider的数据采集和更新速度有重要意义。本文利用ProActive网格网络并行分布计算中间件提供的主动对象（Active Object）技术、网络并行计算技术、自动部署机制等设计和实现了一个名为P-Spider的分布式并行W...

2010-06-26 09:46:00 187

转载【Nutch】Linux下应用nutch 1.0 Web前端实现单机检索

nutch的爬虫和搜索可以说是分离的两块，爬虫可以是M/R作业，但搜索不是M/R作业。搜索有两种方式：一是将爬虫数据(或者称索引数据)放在本地硬盘，进行搜索。二是直接搜索HDFS中的爬虫数据。这里介绍如何使用nutch-1.0的WEB前端检索本地爬虫数据：(1)Nutch的搜索可以独立于hadoop集群，只要将爬虫下来的数据copy到任何机器，在此机器上安装一个tomcat，并运行nut...

2010-06-25 10:08:00 149

转载【nutch-1.1】nutch-1.1如何使用

从Hadoop技术论坛一个牛人那了解到，nutch-1.1使用的是hadoop-0.20.2，目前nutch-1.1还未发布，但在SVN上能够下载到，http://svn.apache.org/repos/asf/nutch/tags/1.1/ 用户可以chech out到Nutch-1.1nutch-1.1要正常运行要首先这样做： (1) nutch-default.xml下的plug...

2010-06-25 10:08:00 82

转载【Nutch-1.0】Windows下解决nutch-1.0的Web前端搜索无结果

nutch-1.0命令行中搜索有结果，但是到web前端搜索，始终无结果，无论怎么配置，搜索关键字，一直提示以下令人郁闷的信息：第0-0项 (共有 0 项查询结果) 很是郁闷，今天终于解决了。 (1)浏览器解压nutch-1.0.war后修改nutch-site.xml后必须重启tomcat。(每次修改Nutch-site.xml后请重启tomcat,再搜索) nutch-site.xm...

2010-06-25 10:07:00 142

转载 Linux下Nutch分布式配置和使用

Linux下Nutch分布式配置和使用目录介绍 0 集群网络环境介绍 1 /etc/hosts文件配置 2 SSH无密码验证配置 2.1配置所有节点之间SSH无密码验证 3 JDK安装和Java环境变量配置 3.1 安装 JDK 1.6 3.2 Java环境变量配置 4 Hadoop集群配置 5 Hadoop集群启动 6 Nutch分布式爬虫 6.1配置Nutch配置文件 ...

2010-06-25 10:06:00 209

转载汉字的几何中心

英文排版靠基线对齐，所以虽然英文字母有不同的高度深度，通过基线的对齐就能让读者感到文字不凌乱。而单词间的空格和单词长度的不同，能够让读者的视线产生错落有致的张弛感。但对于中文排版而言，问题就没有那么复杂。中文排版没有空格，而且都是方块字，所以整体的感觉每行都是一条黑带子，而虽然汉字是方块字，视觉上而言，阅读时仍然可能出现上下左右的波动。这是因为，每个汉字都有视觉中心，而人眼在阅读时...

2010-06-21 17:47:00 708

转载文字色彩与可读性分析

一.饱和度与易读性：上周在做F同学的一个项目时，涉及到较多列表性的文字链接。目前除去频道和首页，全站文字链接使用一致的蓝色，色值为#014ccc，饱和度较高，在用户浏览时更易于吸引注意，但同样也容易引起视觉疲劳，高饱和度的文字并不易于阅读。上图中，下半部分的文字降低了饱和度，是不是比上半部分读起来更舒服？其实，大多数门户类的网站也是使用低饱和度的蓝色作为列表链接颜色的：结论一：颜色饱和度...

2010-06-21 08:50:00 281

转载 Google Analytics和百度统计比较

Google Analytics和百度统计都是网站常用的网站流量分析工具，与其他流量统计工具不同，Google Google Analytics和百度统计不只记录点击流数据，更注重点击流的分析与测量；并尽量将这些结果向Web分析和网络营销引导。这里是读者投递的一篇比较Google Analytics和百度统计的文章，供大家参考。　　百度统计与Google Analytics相同的地方：　...

2010-06-21 08:48:00 630

转载 .NET Hash 简单实例（新手教程）

.NET Hash 简单实例（新手教程） .NET框架中提供了许多Hash类，每种算法的实现方式不同，但是在使用层面上，.NET为我们提供了几乎一致的操作，所谓一通百通。在本节不打算把所有的算法都做演示，因为这样既没必要性也鄙视读者的智商。关于SHA1我们选用托管实现SHA1Managed类做演示。在实际应用中，我建议各位读者尽可能的使用托管...

2010-06-09 14:04:00 368

转载教你制作伪静态

教你制作伪静态　　伪静态是什么? 　　伪静态就是:静态网页通过重写URL的方法实现去掉静态网页的参数，但在实际的网页目录中并没有必要实现存在重写的页面。　　伪静态的生成的2种方式：　　1,框架型伪静态,这种是非常简单而且也是非常即于识别的,它的原理比拟简单,就是做一个静态的主框架页面,然后把静态的内容链入副框架内,这个单从它的URL就能够看出眉...

2010-06-09 13:08:00 208

转载 wince API大全

wince API大全 1. API之网络函数 WNetAddConnection 创建同一个网络资源的永久性连接 WNetAddConnection2 创建同一个网络资源的连接 WNetAddConnection3 创建同一个网络资源的连接 WNetCancelConnection 结束一个...

2010-06-09 13:05:00 168

转载 vim常用命令汇总

neonlight@live.cn发表，转载请注明出处。一、进入编辑器行：edit,e,ex屏幕：vi,v,viewvi -r filename(继续意外中断的文件编辑)vi file1 file2 file3(编辑完前一个文件，用:w保存后，用:n开始下一个文件编辑)vi -x filename(对encrypt加密文件编辑)vi 中执行Unix命令([[加数字代表独到第几行]加...

2010-05-15 09:22:00 137

转载关于手机等品牌型号搜索与采集的中文分词分离

http://www.cnblogs.com/cyq1162/archive/2010/04/18/1349062.html很久以前，写过一个手机的搜索查询，这里要涉及到手机类型和型号的分离。很久之后前，有人问起这个问题，于是，写点说明就把这函数的草稿发布了，并写下了这一些说明。函数说明，如搜索输入：诺基亚N95,将被拆分成品牌：诺基亚型号：N95 对于手机数据采集，也可以用这函...

2010-04-27 22:34:00 115

转载大数据量的过滤 (用于爬虫,蜘蛛) Bloom Filter 布隆过滤器

大数据量的过滤 (用于爬虫,蜘蛛) Bloom Filter 布隆过滤器想像一下.如果你有一个非常大的无序的数据(url连接) 并且你要保证同样的一条连接不会在其它地方再次出现你实时的收集哪些数据,你没有办法来预防两个相同的url出现,再不断增加的数据当中. 当这些数据是少的时候你可以轻松的创建一个list(dictonary or hashtable 或者你自已的数据结构)然后遍历...

2010-04-27 22:28:00 111

空空如也

空空如也