- 博客(11)
- 收藏
- 关注
翻译Term Vector Theory and Keyword Weights
第一次翻译,还真的很难 Term Vector Theory and Keyword Weights 词向量和关键字权重 An Introductory Series on Term Vector Theory for Information Retrieval Students and Search Engine Marketers 一系列介绍性的词向量相关的理论,针对信息提取的学生...
2008-05-07 11:56:53
227
配置paoding analysis
在开源中文analysis,我选择了paoding analysis,link:http://code.google.com/p/paoding 配置如下: 在CLASSPATH 上面加入:E:\eclipse\paoding-analysis.properties 在用户变量加入:PAODING_DIC_HOME=》E:\dic 把dic文件,就是字词文本文件放到对应的目录。 测试...
2008-05-06 10:52:19
325
tag 与 字段的提取,使用双向链表实现
在上一篇中提到提取tag(包括文本),对于严格的html结构,如下: that is a p itemthat is a font item 希望解析的结果如下: p:thag is a p item font:that is a font item ... ... 就是一个tag对应夹在tag间的所有文本,这样对于搜索的意义在于,不同tag的文本其搜索意义不一样,比如that is...
2008-05-05 11:22:48
178
html TagStream流的实现
我想对于一个html文件进行如下的处理: 1)把html里面的文本也看成tag,对于tag有三种属性,一种是开始的tag,如,一种是结束的tag,比如,还有一种就是封闭在对应的开始和封闭的tag的文本,比如that is a p item,其中that is a p item就是普通文本。 2)把html里面的所有tag(包括文本),形成一个数组,加入了hasnext(),next()方法 ...
2008-05-05 10:34:13
288
jvm垃圾回收问题
如果 两个对象 互相拥有 对方的 引用 但又没有其他引用指向他们 那么: 有内存泄漏? 因为这两个对象不会被自动回收? 还是jvm会自动回收这两个对象? 简单的例子: 双向链表, head = null; 那么后面的item会不会自动回收呢?...
2008-04-30 16:32:54
108
最小分词(中文分词)
中文分词一般有下面几种方法: (http://www.googlechinablog.com/2006/04/blog-post_10.html) 1、基于字符串匹配的分词方法 1)正向最大匹配法(由左到右的方向); 2)逆向最大匹配法(由右到左的方向); 3)最少切分(使每一句中切出的词数最小)。 这几种方法一般都是通过“字典”来实现的,比如: "中国航天官员应邀到美国与太空总...
2008-04-24 15:55:30
1126
DataInputStream readLine()
[code="java"]public static String getHtml(String url){ try{ Socket clientSocket = new Socket(url, 80); clientSocket.setSoTimeout(20000); DataOutputStream outbound = new DataOutputStream...
2008-04-15 11:46:13
661
什么问题呢?
这是什么问题呢? 是不是order这个是一个关键字? [code="java"]C:\Documents and Settings\zhou>mysql -u spider -p Enter password: ****** Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQL connection ...
2008-04-12 14:34:04
87
html parser html解析
对html的解析我的要求非常简单,就是形成tag=>text的对应关系,如下: [code="java"] title content body content p content [/code] 解析之后: [code="java"]html=>null title=>title ...
2008-04-11 14:55:45
274
url spider
在实现url的爬虫中,我觉得很难的就是url的筛检,如果可以都在内存中实现(就是假设内存无限大),我觉得可以简单这么做: 把所有url都放在LinkedHashSet(使用link的原因是可以顺序访问,hashset是为了互斥,就是每个url只访问一次), 从一个url开始: [color=darkred]url->linkedhashset->big linkedhashset->bigg...
2008-04-11 14:22:04
183
lucene org.apache.lucene.util.BitVector.java
[color=blue]1 org.apache.lucene.util分析 package org.apache.lucene.util; Optimized implementation of a vector of bits. This is more-or-less like java.util.BitSet, but also includes the following: ...
2008-04-11 13:36:24
184
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人