
Java/C/C++
文章平均质量分 92
黑夜路人(heiyeluren)
黑夜路人(heiyeluren),一个喜欢研究互联网技术的开源技术爱好者,
既然决定远行,便只顾风雨兼程。
展开
-
【原创】支持模糊匹配站内全文检索的技术方案
【原创】支持模糊匹配的全文检索有哪些解决方案?作者:黑夜路人(heiyeluren)时间:2021/1/13全文检索/全文搜索的问题场景:比如说,有一个问题场景是这样的:在计算机课程培训体系中,现在有个需求是实现根据用户输入关键字,搜索课程名称和课程简介进行匹配度计算的场景的问题,初步数据量不大。大概是这样的:使用场景:【输入“mysql”关键字,可以匹配这些】:mysql引擎innodb介绍 (完全匹配)mysql介绍 (完全...原创 2021-01-13 18:52:00 · 4199 阅读 · 4 评论 -
[转]编写简单的中文分词程序
几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、词库词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下:地区 82重要 81新华社 80技术 80会议 80自己 79干部 78职工 78群众 7转载 2006-08-23 10:44:00 · 3593 阅读 · 1 评论 -
[转]搜索工程师的面试题(整理)
面试题(整理了一下) 题目:算法题:1、线形表a、b为两个有序升序的线形表,编写一程序,使两个有序线形表合并成一个有序升序线形表h;2、运用四色定理,为N个局域举行配色,颜色为1、2、3、4四种,另有数组adj[][N],如adj[i][j]=1则表示i区域与j区域相邻,数组color[N],如color[i]=1,表示i区域的颜色为1号颜色。3、用递归算法判断数组a[N]是否为一个递转载 2006-09-03 00:29:00 · 7295 阅读 · 0 评论 -
[转]Google Linux Cluster的系统结构分析(余一娇)
原PDF下载:http://hums.ccnu.edu.cn/teachers/yyjcai/TR/TR-2005-04.pdfGoogle Linux Cluster的系统结构分析 余一娇1,2 (1华中师范大学语言学系 武汉430079) (2华中科技大学计算机学院 武汉 430074) E-mail: yjyu@mail.ccnu.edu.cn 摘 要:Go转载 2006-09-08 09:38:00 · 5113 阅读 · 0 评论 -
[转] 面向方面的编程:它的好处是什么?
面向方面的编程:它的好处是什么? Gary Pollice, Professor of Practice, 伍斯特工学院来自于 Rational Edge:关于面向方面的编程的大多数介绍,都是建立在技术可行的有限环境的基础之上,而忽略了AOP的实际价值。这篇文章提供了将AOP技术应用于软件开发项目的一系列实际的例子。最近,我被要求领导我们软件工程研究小组(SERG)开转载 2006-09-08 03:26:00 · 2368 阅读 · 0 评论 -
[转]How To Setup MogileFS & Using MogileFS
How To Setup MogileFSVersion: 0.03, July 3, 2006Author: Brett G. Durrett (first name at last name dot net)Source: http://durrett.net/mogilefs_setup.htmlOverviewThis document explain转载 2006-09-08 09:51:00 · 5806 阅读 · 0 评论 -
[转]Unix下针对邮件,搜索,网络硬盘等海量存储的分布式文件系统项目(关于GFS、MogileFS分布式文件系统邮件列表)
Unix下针对邮件,搜索,网络硬盘等海量存储的分布式文件系统项目 :Google是当前最有影响的Web搜索引擎,它利用一万多台廉价PC机构造了一个高性能、超大存储容量、稳定、实用的巨型Linux集群。 http://bbs.chinaunix.net/forum/viewtopic.php?t=390949&show_type=old 其分布式分布式文件系统的实现方法,用低成本实现了转载 2006-09-08 09:17:00 · 7470 阅读 · 0 评论 -
[转]用PHP调用Lucene包来实现全文检索
用PHP调用Lucene包来实现全文检索作者:张杰来源:http://www.lucene.com.cn/php.htm相关链接Lucene中国:http://www.lucene.com.cnLucene官方网站:http://lucene.apache.org/由于工作需要,需要使用PHP实现对网站内大量数量进行全文检索,而且目前最流行的全文检索的搜索引擎库就是Lucene了转载 2006-09-10 15:55:00 · 3099 阅读 · 2 评论 -
[转]用 C 语言编写一个网络蜘蛛
用 C 语言编写一个网络蜘蛛来搜索网上出现的电子邮件地址作者:zhoulifa来源:http://bbs.chinaunix.net/viewthread.php?tid=821361可能大家经常要去互联网上搜索特定的内容,比如收集大量邮件地址,如果用 google 之类的搜索引擎是没法实现这种特定功能的,所以用 C 语言来写一个吧。它的功能就是不断去取得网络上的页面,然后分析出转载 2006-09-11 23:17:00 · 5024 阅读 · 0 评论 -
[转]搜索引擎设计实用教程-以百度为例
搜索引擎设计实用教程-以百度为例 作者:中科院软件所 张俊林一、查询处理以及分词技术 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络转载 2006-09-13 22:43:00 · 3007 阅读 · 0 评论 -
[转]追MM与Java的23种设计模式
追MM与Java的23种设计模式 1、FACTORY?追MM少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西,虽然口味有所不同,但不管你带MM去麦当劳或肯德基,只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 工厂模式:客户类和工厂类分开。消费者任何时候需要某种产品,只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是转载 2006-09-19 17:15:00 · 2489 阅读 · 0 评论 -
[转]Sqlite中文排序研究
Sqlite中文排序研究 转载时请注明出处:http://blog.youkuaiyun.com/absurd Sqlite是一个用C语言实现的小型SQL数据库引擎。它体积小巧但功能强大,对硬件资源要求很低而且性能表现卓越,非常适合于嵌入式应用环境。最近发现sqlite并不支持中文(拼音/笔画)排序,而这个功能又是我们必需的,所以花了些时间去研究。我对Sqlite的了解只能算是业余级,在转载 2006-10-11 23:18:00 · 3541 阅读 · 1 评论 -
发现三本不错的讲解数据存储的书
研究数据存储,没有很多现成的东西,但是可以参考数据库系统的存储实现的内容,发现三本书,觉得值得一读。《数据库系统全书》http://www.china-pub.com/computers/common/info.asp?id=14171 这本书从12到15章都是讲解关于数据存储的知识。 《数据库系统概念(原书第4版)》http://www.china-pub.com/com原创 2006-06-06 15:39:00 · 5856 阅读 · 1 评论 -
[转]通过案例深入探讨PHP中的内存管理问题
通过案例深入探讨PHP中的内存管理问题发布时间: 2006-10-26 09:44 作者: 朱先忠 信息来源: 天极开发 内存管理对于长期运行的程序,例如服务器守护程序,是相当重要的影响;因此,理解PHP是如何分配与释放内存的对于创建这类程序极为重要。本文将重点探讨PHP的内存管理问题。 一、 内存 在PHP中,填充一个字符串变量相当简单,这只需要一个语句"<?php转载 2006-10-28 15:09:00 · 3101 阅读 · 0 评论 -
某公司笔试题
某公司笔试题1. 两个表,都1000W的数据,left join会不会挂? 如果数据量再大,怎么优化? 2. 一个数据文件,每条记录内容包括:时间、IP地址、关键词。记录是无序排列的,条数超过2000万条。 要求是按检索词排序,并保持时间,IP地址和关键词保持原来的关联... 设计一个程序实现这个功能,并分析时间复杂度和空间复杂度...硬盘足够大..内存1G (题目不是俺做滴,是一个原创 2006-11-06 20:40:00 · 3499 阅读 · 3 评论 -
[转]Berkeley DB 概述
Berkeley DB 概述 皮东Berkeley DB官方网站:http://www.sleepycat.com/ Berkeley DB是由美国Sleepycat Software公司开发的一套开放源码的嵌入式数据库的程序库(database library),它为应用程序提供可伸缩的、高性能的、有事务保护功能的数据管理服务。Berkeley DB为数据的存取和管理提供了一组转载 2006-07-12 00:36:00 · 3866 阅读 · 0 评论 -
[转]Berkeley DB 数据库的优缺点
Berkeley DB 数据库的优缺点来源:http://www.nowboy.com/main/archives/52BDB官方网站:http://www.sleepycat.com/Sleepycat软件公司出品的Berkeley DB是一种在特定的数据管理应用程序中广泛使用的数据库系统,在世界范围内有超过两亿的用户支持.许多世界知名的厂商,像Amazon, AOL, Brit转载 2006-07-12 00:41:00 · 9838 阅读 · 0 评论 -
[转]对CURL的一些研究
作者:mq110来源:http://bbs.chinaunix.net/viewthread.php?tid=586014前两天看到有人求客户端socket 发HTTP包的代码,受flw版主启发找了一些perl的资料,不过对perl 还是不太熟悉。也没有深入的研究。无意中发现了libcurl.so 这个库。去google上搜索发现它是处理客户端发送HTTP请求的库 以及可以处理web服务转载 2006-07-21 17:23:00 · 3163 阅读 · 1 评论 -
[转]C语言写监控守护进程
来源:http://bbs.chinaunix.net/archiver/?tid-393658.htmlUNIX Programming FAQ 中文版 v0.1.0(转)一个使用以上函数的范例程序: #include ; #include ; #include ; #include ; #include ; #include ;转载 2006-08-03 18:21:00 · 4238 阅读 · 0 评论 -
[转]Linux 守护进程的编程方法
Linux 守护进程的编程方法作者: 北京工业大学 小胡来源: http://www.qtcn.org/bbs/simple/index.php?t116.html守护进程(Daemon)是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。 Linux的大多数服务器就是用守护进程实现的。比如,Internet服务器ine转载 2006-08-03 18:18:00 · 5603 阅读 · 0 评论 -
[转]嵌入式数据库系统Berkeley DB
嵌入式数据库系统Berkeley DB 施聪高级程序员、网络设计师2005 年 4 月 BerkeleyDB是历史悠久的嵌入式数据库系统,主要应用在UNIX/LINUX操作系统上,其设计思想是简单、小巧、可靠、高性能。本文是对DB开发的一个入门级指南,重点讨论了DB的核心数据结构和数据访问算法,并通过实际的代码演示如何使用DB。最后有一个对DB的简单总结,并提出作者对工具选择的一些感想。转载 2007-02-07 16:57:00 · 3894 阅读 · 0 评论 -
[转]Memcached深度分析
//奶瓶同学滴文章,哼哼//来源:http://www.54np.com/docs/mc.html Memcached深度分析作者:奶瓶网站:http://www.54np.comMemcached是danga.com(运营LiveJournal的技术团队)开发的一套分布式内存对象缓存系统,用于在动态系统中减少数据库负载,提升性能。关于这个东西,相信很多人都用过,本文意在通过对转载 2007-02-14 15:38:00 · 7988 阅读 · 0 评论 -
在网上看到使用PHP实现常见的数据结构和算法
偶然使用google的代码搜索里面发现一个使用php实现的基本的数据结构和算法,什么二叉树、二叉搜索树、AVL树、B树、链表和常见排序、搜索算法等等,而且全部是使用面向对象来实现的,确是是很强。源码地址:http://www.brpreiss.com/books/opus11/public/Opus11-1.0.tar.gz文档地址:http://www.brpreiss.com/b原创 2007-02-27 19:03:00 · 8419 阅读 · 2 评论 -
[转]深入理解C语言指针的奥秘
来源:http://community.youkuaiyun.com/Expert/topic/5290/5290998.xml?temp=.1724054指针是一个特殊的变量,它里面存储的数值被解释成为内存里的一个地址。 要搞清一个指针需要搞清指针的四方面的内容:指针的类型,指针所指向的 类型,指针的值或者叫指针所指向的内存区,还有指针本身所占据的内存区。让我们分别说明。 先声明几个指针放着做转载 2007-01-23 20:54:00 · 3789 阅读 · 0 评论 -
[转]搜索引擎也开源
来源:http://www2.ccw.com.cn/06/0647/b/0647b04_1.html开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越 多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜 索引擎系统。搜索引擎的开源,无论是对技术人员转载 2007-02-05 12:29:00 · 4771 阅读 · 0 评论 -
[转]FTP搜索引擎的设计与实现
FTP搜索引擎的设计与实现 张运凯 刘宏忠 郭宏刚转载 2007-03-25 14:53:00 · 4292 阅读 · 0 评论 -
HTTP/FTP客户端开发库:libwww、libcurl、libfetch 以及更多
网页抓取和ftp访问是目前很常见的一个应用需要,无论是搜索引擎的爬虫,分析程序,资源获取程序,WebService等等都是需要的,自己开发抓取库当然是最好了,不过开发需要时间和周期,使用现有的Open source程序是个更好的选择,一来别人已经写的很好了,就近考验,二来自己使用起来非常快速,三来自己还能够学习一下别人程序的优点。闲来无事,在网上浏览,就发现了这些好东西,特别抄来分享分享。主要原创 2007-07-15 14:43:00 · 26307 阅读 · 10 评论 -
[转]w3c-libwww入门教程
【libwww介绍】官方网站:http://www.w3.org/Library/更多信息:http://www.w3.org/Library/User/运行平台:Unix/Linux,Windows以下资料来源:http://zh.wikipedia.org/wiki/Libwww简介:Libwww 是一个高度模组化用户端的网页存取API ,用C语言写成,可在 Unix 和 Windo转载 2007-07-15 14:49:00 · 9097 阅读 · 3 评论 -
[转]Network Programming Using Libevent
Network Programming Using Libevent - (I) 在課堂上學過 Unix Network Programming 後,我們知道在處理多 User 時會有幾種方法解決: 一個新的 Connection 進來,用 fork() 產生一個 Process 處理。 一個新的 Connection 進來,用 pthread_cr转载 2007-05-03 19:21:00 · 5248 阅读 · 0 评论 -
[转]网络安全工具开发函数库介绍
网络安全工具开发函数库介绍作者:backend backend@nsfocus.com> http://www.nsfocus.com> 日期:2000-07-16 ---[[ 前言 ]]-----------------------------------转载 2007-05-03 20:03:00 · 6786 阅读 · 0 评论 -
[转]epoll给我们带来了什么
来源:http://publish.it168.com/2005/0819/20050819022001.shtmlQ:网络服务器的瓶颈在哪? A:IO效率。 在大家苦苦的为在线人数的增长而导致的系统资源吃紧上的问题正在发愁的时候,Linux 2.6内核中提供的System Epoll为我们提供了一套完美的解决方案。传统的select以及poll的效率会因为在线人数的线形递增而导致转载 2007-05-29 15:14:00 · 3033 阅读 · 0 评论 -
[转]使用epoll进行高性能网络编程
epoll和其他技术的性能比较.翻译:韩红军。hanhj@vrlab.buaa.edu.cn ; hongjun_han@163.com原文出自:https://www.captech.com.cn英文原文:http://www.xmailserver.org/linux-patches/nio-improve.html由于水平有限,错误在所难免,希望各位指正。07-01-2001 – 初稿 -转载 2007-05-29 15:42:00 · 4334 阅读 · 0 评论 -
[转]Getting Started with Hadoop, Part 1
Getting Started with Hadoop, Part 1作者:Richard来源:http://huang.yunsong.net/2006/getting_started_with_hadoop_part1.html我一直都对分布式文件系统非常感兴趣,特别喜欢研究如何在庞大的廉价的异构系统集群上进行容错性良好的分布式存储。这些话题总是能吸引我的注意力。记得2002转载 2007-09-09 17:56:00 · 2867 阅读 · 1 评论 -
[转]Hadoop学习笔记
Hadoop学习笔记作者: wayne1017 一、简要介绍这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。 言归正传,先说转载 2007-09-09 17:51:00 · 6907 阅读 · 3 评论 -
[转]缓存性能比较(Cache Performance Comparison)[英文]
Cache Performance ComparisonJay Pipes continues cache experiements and has compared performance of MySQL Query Cache and File Cache. Jay uses Apache Benchmark to compare full full stack, cache转载 2007-09-14 13:52:00 · 5018 阅读 · 0 评论 -
[转/上传] 搜索引擎技术介绍(GIF图)
搜索引擎技术介绍作者:屈波(曾就职与中搜、华友世纪、卓望等公司,兰州大学毕业)来源:http://oss.lzu.edu.cn/modules/newbb/viewtopic.php?topic_id=1026&forum=13PPT:http://www.tonyse.com/se.ppt转载 2007-09-12 21:14:00 · 6883 阅读 · 5 评论 -
[转]用 PHP 构建自定义搜索引擎
用 PHP 构建自定义搜索引擎Martin Streicher (martin.streicher@linux-mag.com), 主编, Linux Magazine2007 年 9 月 10 日 虽然 Google 及其系列产品几乎无所不能,但是 Web 形式的强大搜索引擎并不能很好地适用于每个站点。如果站点内容已被高度专业化或已明确分类,那就需要使用 Sphinx 和 PH转载 2007-09-14 16:27:00 · 3735 阅读 · 1 评论 -
[转]libhash中的哈希函数
随便贴一个libhash中的hash函数,写的貌似不错,贴出来玩玩。hash.h/* * Australian Public Licence B (OZPLB) * * Version 1-0 * * Copyright (c) 2004 National ICT Australia * * All rights reserved. * * Developed by: Emb转载 2007-06-18 21:38:00 · 3354 阅读 · 1 评论 -
[转]社区全文检索引擎Hyper Estraier 学习笔记
社区全文检索引擎Hyper Estraier 学习笔记July 18, 2007 on 12:33 am | In 未分类 | 1 Comment 来源:http://www.162cm.com/archives/date/2007/07/18作者:162cm.com今天突然想起霍炬曾告诉过我的一个日本人开发的全文检索引擎,于是找他问了,并下载下来看了看。晚上去优酷去混脸转载 2008-01-25 16:52:00 · 3492 阅读 · 0 评论 -
[转]笨蛋也可以用的 libsvm
libsvm相关资料官方网站:http://www.csie.ntu.edu.tw/~cjlin/libsvm/下载:Linux:http://www.csie.ntu.edu.tw/~cjlin/cgi-bin/libsvm.cgi?+http://www.csie.ntu.edu.tw/~cjlin/libsvm+tar.gz Windows:http://www.csie.nt转载 2008-02-25 18:51:00 · 5160 阅读 · 0 评论