
信息检索、过滤
文章平均质量分 59
马如林
桂林电子科技大学计算机硕士,15年+的编程和架构经验,美国PMI认证PMP,Oracle认证Java程序员,信息系统项目管理师,软件设计师,CET6。
展开
-
介绍一个分词比较好的网站
介绍一个分词比较好的网站:http://nlp.org.cn/ http://www.nlp.org.cn/用了感觉就是好。原创 2006-10-28 10:23:00 · 1292 阅读 · 0 评论 -
信息指纹概述
任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。这个主要可以通过算法来实现。比较著名的有MD5等。比如:VS2005就自带了不少。你可以在调用它的函数就可以生成信息指纹。 转换为信息指纹的好处: 1 存储空间变小。一个只要存贮整形的数和一个需要存储整个字符串显然是数要好得多 2 查找方便。如果字符串查找,则需要原创 2007-06-18 20:39:00 · 2561 阅读 · 1 评论 -
Java多线程下载
同时下载多个文件,不过单文件没有多线程的下载并且没有断点续传功能,继续完善:package com.util.file;public class Files { /*** * 获取应用程序的根目录 * @return 应用程序根目录 */ public static String getSysPath(){ retu原创 2008-06-09 17:27:00 · 1860 阅读 · 0 评论 -
java下载网页并读取内容
下载回来怎么也得读取内容:package com.core.crawl;import java.io.IOException;import com.util.file.Files;public class Crawl { /** * @param args * @throws IOException * @throws原创 2008-06-09 19:38:00 · 10659 阅读 · 8 评论 -
Java为多线程和断点续传准备的
RandomAccessFile oSavedFile = new RandomAccessFile("down.txt","rw"); long nPos = 10; //定位文件指针到nPos位置 oSavedFile.seek(nPos); byte[] b = {a,b}; //从输入流中读入字节流 oSavedFile.原创 2008-06-09 22:30:00 · 1296 阅读 · 0 评论 -
Java的http获取文件
设置范围和和使用RandomAccessFile : private void download() throws IOException { HttpURLConnection httpConn = null; httpConn = (HttpURLConnection) url.openConnection(); httpConn.setRequestMet原创 2008-06-10 17:01:00 · 7486 阅读 · 0 评论 -
Solr简介
<br /> <br />项目地址:<br />http://lucene.apache.org/solr/<br /> <br /> <br />基于lucene的一款服务应用程序,可以通过java 命令接口和java 编程进行交互。<br /> <br />http://lucene.apache.org/solr/tutorial.html 是其应用的一个简单介绍,按照这个操作一番基本对其有个了解。另外youtube上有个作者的视频也不错。结合看效果不错。<br /> <br /> <br />演示使原创 2011-02-26 22:20:00 · 1131 阅读 · 0 评论 -
我的云之旅–Lucene内容存储进入Hadoop(136)
首先了解一下Lucene的使用:package com.rx;索引的建立:import java.io.File;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.原创 2012-04-12 22:47:09 · 3998 阅读 · 1 评论 -
我的云之旅–HBase调试(139)
下面是运行日志:HBase-site.xmlSee the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The ASF licenses this file * to you under the Apa原创 2012-04-13 22:36:48 · 13944 阅读 · 0 评论 -
同一段视频
北京申奥宣传片同一段视频:下载地址分别为:http://fun.china.com/zh_cn/movie/prevue/files/beijingshenao.wmvhttp://dy.52dianying.com/wuhuid/uuauth/gaoxiao/beijing.wmv?8b4381386455bbb4f9df764024e88cd3我分别将上述视频上传到www.youk原创 2007-09-11 14:55:00 · 1261 阅读 · 0 评论 -
Java的hashCode解析
hash表是快速查找算法中比较好的一种,哈希表中的哈希函数是其中比较重要的。Java使用的Hash函数说明如下 /** * Returns a hash code for this string. The hash code for a * String object is computed as * * s[0]*31^(n-1) + s[1]*31^(n原创 2007-08-25 11:36:00 · 2054 阅读 · 0 评论 -
JavaBean中调用ICTCLAS的dll给Jsp
中科院的分词系统是非常好的分词系统。 我在做一个系统时用到了仅仅时研究,同时我参考了 北京师范大学陈天的Java版本。在其中进行部分改动满足自己的需求。1 jsp文件调用bean。@page contentType="text/html"%>@page pageEncoding="UTF-8"%>@page language="java"%>@page import="java.原创 2006-10-29 17:18:00 · 2129 阅读 · 1 评论 -
gbk与unicode的映射表
按照Java代码的说明可以找到如下文字: Code Page 936 (CP936) is the most popular implementation of GBK. A mapping to Unicode is provided by Microsoft: http://www.microsoft.com/typography/unicode/936.txt下面的原创 2006-11-22 20:29:00 · 4921 阅读 · 1 评论 -
停止词(stop words)
以下是我对几十篇新华网的一个统计选择为appearCount>50 and possible>04 and possible大概意思就是词频每篇一个,与文章的分类没什么影响的词。0.4与0.6是2分类的设置。 , 0.534606551921961 , w 1880 上 0.505789204468509 上 m 7原创 2006-12-05 16:32:00 · 2586 阅读 · 0 评论 -
我的中英文关键词列表
不断更新:TF: Trm Frequency停止词: Stop words文档频率: Document FrequencyIDF: Inverse Document Frequency熵: Entropy特征选择: Feature Selection文本分类: Text Classification原创 2006-12-05 17:19:00 · 1568 阅读 · 0 评论 -
关联性的考虑
今天看了篇文章:在做搜索引擎的时候考虑文章内容的关联性问题比如出现:销售 那就和某个物品对应等等原创 2006-12-01 19:28:00 · 1183 阅读 · 0 评论 -
Google的停止词(Stop words)
I a about an are as at be by com de enfor fromhow in is it la of on or thatthe thisto was what whenwhere who will withundthewww http://www.ranks.nl/tools/stopwords.html报道在 google 中输入I 看结果看见如原创 2006-12-05 16:52:00 · 4459 阅读 · 1 评论 -
.net的SQL参数传递实现
参考Petshop 4 设计(http://www.cnblogs.com/Files/ltc31/Microsoft%20.NET%20Pet%20Shop%204.0.rar),本文主要演示的是怎么准备参数和传递。数据库是Oracle。部分代码如下(用到的其他相关配置参见上篇文档):/**//// /// Execute a select query that will原创 2007-03-24 09:59:00 · 2280 阅读 · 1 评论 -
我的关联规则读数目录
我的关联规则读数目录:后面有1的表示我读了并标记的。E:/关联规则/DATASETS.docE:/关联规则/DATASETS.pdfE:/关联规则/eng ref.docE:/关联规则/fanwen.docE:/关联规则/fp.docE:/关联规则/KDD中因果关联规则的评价方法1.pdfE:/关联规则/KDD中知识评价的研究综述1.pdfE:/关联规则/OLAP关联规则挖掘1.pdfE:/关联规原创 2007-05-19 21:20:00 · 1823 阅读 · 0 评论