老紫竹精确搜索系统 V1.0正式发布[提供完整源代码下载]

老紫竹精确搜索系统V1.0正式发布，支持远程数据增加及手动添加内容，用户可在个人电脑上搭建私人搜索系统。系统采用Lucene进行高效存储与检索，支持多种博客平台数据抓取。

源代码下载地址：

1 我的个人网站，老紫竹精确搜索系统 V1.0正式发布
2 在google的code里面 http://code.google.com/p/lzzsearch 推荐去这里

lzzSearch-1.0-no-dependence.zip 只有源代码，不包含类库和庖丁解牛的词典等
lzzSearch-1.0-with-dependence.zip 包含全部代码，当然tomcat和jdk我就不包含了吧。

老紫竹精确搜索系统(LzzSearch)变更历史
===================================
2009-02-09 v1.0
---------------
* 经过很短的测试，系统基本可以使用，决定发布1.0版，并提供完整Eclipse项目下载
* 允许远程增加数据，比如你在家里采集数据，然后提交到服务器上，需要一个服务器的授权标识
  默认在d:/lzzsearch.properties 里面，设置一个sign 的配置，默认是
  sign=1234567890abcdefghigklmnopqresuvwxzy
  在 adddata.jsp里面使用这个授权标识，建议不是修改这个配置，而是去增加配置文件
* 允许手工添加那些不在受支持的服务器列表的内容，手工加入数据，需要一个服务器的授权标识

* 后面的重点，是制作GUI的本地使用部分，大家可以在自己的机器上搭建私人的"收藏搜索系统"了.

2009-02-07 v0.4
---------------
* 加入了WebContent目录，用来保存B/S程序
* 实现了加入收藏网页的功能
* 实现了搜索已经被收藏的网页的功能
* Store的search(String)方法增加了2个参数，search(String,int,int),为搜索结果的起始和数量
* 实现查看保存的内容的功能
* 使用LuceneStore进行存储，方便查询
* 修正 PageService读取数据时，丢失换行的BUG
* 增加对优快云博客的解析（由于博客的主题可以随意变更，所以需要不断增加BODY匹配）
* 增加对老紫竹的家的解析
* 域名判断增加了正则匹配，比如163的博客域名
* 增加对163博客的解析
* Lucene的内部文档编号从0开始
* 增加对BlogJava.net的解析
* 增加对51cto的博客解析
* 修正了多个解析的正则表达式错误
* 增强了引擎的主机地址匹配功能
* 增加了对csdn归档帖子的解析
* 调整Store接口，增加SearchResult同时返回结果总数和列表
* 增加对Cnblogs的一个格式的支持
* Store接口的save功能返回boolean,表示是否保存成功
* 加入了 lucene-highlighter-2.4.0.jar
* 增加了搜索结果的高亮显示
* 增加了对JavaEye的博客支持
* 增强了发贴日期的正则解析，支持多个部分的拼接
* 增加了对 PHPChina 的支持
* 增加了对 Itpub 博客的支持
* 增加了对 ccidnet 的博客支持
* 修正了stripHtml里的一个bug

2009-02-05 v0.3
---------------
* 增加了存储接口，可以将数据用不同的方式保存
* 确定系统里url是唯一的
* 调整 Lucene 实现存储接口
* 数据项增加了id属性，用来保存唯一的编号，比如lucene的docId,数据库的id主键等
* 增加基于数据库的存储实现（MySQL+JDBC)，采用标准SQL
* 数据库存储使用了新的类库
commons-dbcp-1.2.2.jar
mysql-connector-java-5.1.7-bin.jar
commons-pool-1.4.jar
* 在源代码的sql目录下增加了MySQL 5.1.30 版的创建表格的SQL文件
* applicationContext.xml 增加了MySQL的数据源和对应的MySQL存储的配置
* 在demo里面增加了针对MySQL的测试例子
* 其它存储方式(比如文件存储)的实现，可以通过实现Store接口即可
* util下增加了一个DBUtil类，用来释放数据库资源

2009-02-03 v0.2
------------------------
* 增加了对Lucene 2.4 的支持，保存采集内容并对提供搜索和内容更新
* 使用了庖丁解牛做中文分词
* 修正了 StrTools 里面对于<br />不能正确文本替换的BUG
* 增加了专用的TestLucene的演示程序
* 更改test目录名为demo
* 的Lucene的索引目录在applicationContext.xml里面进行修改,默认为 d:/indexpaoding/lzzSearch
* 调整了项目目录，将需要的5个jar都放到了项目内部,无需单独下载了
* 注意：庖丁所需要的dic我已经放到了系统内部，在src/dic下面
并且更新了paroding-analysis.jar里面的 paoding-dic-home.properties文件的配置

2009-02-02 v0.1
------------------------
* 基于Spring的配置，可以轻松的增加采集的站点
* 采集点包含标题，作者，发布时间和内容四部分
* 采集后的内容由用户自行处理



老紫竹的家
分享互联网的快乐与收获