
JAVASE
ansj
以上信息将会公开显示在您的个人页面中。如需修改昵称、密码、头像等,请从 [优快云 会员帐户设置] 中修改
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
解决nutch的segmens的拆分与nutch crawl的重载
TEAM : I.S.T.OAUTHOR : SUMMER转载需注明出处,未经作者同意,不得用于任何形式的商业活动主题:解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题主要内容一、Lucene的索引机制与索引文件结构二、Nutch的爬虫分析与文件结构分析三、Nutch segments的拆分索引实现方案一、Lucene的索引机制与索...原创 2009-11-18 16:03:53 · 161 阅读 · 0 评论 -
二分法查找
[code="java"]import java.util.Arrays;/** * * @项目名称:Test * @类名称:BinarySearch * @类描述: 二分法查找* @创建人:Ansj * @创建时间:2011-9-13 下午02:53:47 * @修改备注: * @version * */publ...原创 2011-09-13 15:03:32 · 173 阅读 · 0 评论 -
一个关键字标红的通用类
[code="java"]import java.lang.reflect.Array;import java.util.Arrays;import java.util.HashSet;import java.util.Iterator;import java.util.Set;/*** 文本坐标记用的* tagBegin是开始标记* tagEnd 是结束标记...原创 2011-09-15 20:32:46 · 374 阅读 · 0 评论 -
JTable中添加JButton
[code="java"]package ljsearchapp;import java.awt.Component;import java.awt.FlowLayout;import java.awt.event.ActionEvent;import java.awt.event.ActionListener;import java.util.EventObject;...原创 2011-08-03 09:18:27 · 924 阅读 · 0 评论 -
java算法专题-归并排序
归并的思想就是分治.时间复杂度..忘记了大概实现了下..还真挺费劲的...很受打击啊...还有什么好的排序算法..大家给推荐下我试着弄弄没怎么写注释..以此作为我的备用.这几天的思考中我终于发现..理解和会用和精通是两个概念..学海无涯.人生苦短啊[code="java"]public class Test1 { public sta...原创 2011-11-02 21:32:36 · 125 阅读 · 0 评论 -
简单版数独计算器-升级版
只能算初级的..高级的就溢出了就算内存无穷大.可能性超过了20亿就数组放不下了因为是广度优先吧..所以..争取能写个深度优先的办法哎..好难啊..头发掉了好多[code="java"]package com.ansj.ansjIndex;import java.util.ArrayList;import java.util.Arrays;...原创 2011-11-03 12:28:56 · 220 阅读 · 0 评论 -
文本相似度计算-Levenshtein
参见网址http://www.merriampark.com/ld.htm#JAVA[code="java"]import java.util.BitSet;public class Distance { public static void main(String[] args) { Distance distance = new Distance() ;...原创 2012-01-13 11:26:29 · 253 阅读 · 0 评论 -
<<这就是搜索引擎>>学习笔记-算法之索引压缩
前一段时间.在微博上中奖了.一个叫张俊林的帅锅.送了俺一本书.由于工作(其实是懒惰),一直木有好好看..书到手一个月了才看了80多页.现在终于要过年了.开始看了..顺路给自己做个笔记.在这里我郑重推荐此书 定 价:¥45.00作 者:张俊林 著出 版 社:电子工业出版社出版时间:2012-1-1[url]http://product.da...原创 2012-01-19 16:20:24 · 154 阅读 · 0 评论 -
到1亿的自然数,求所有数的拆分后的数字之和
public static void main(String[] args) throws UnsupportedEncodingException { //1到1亿的自然数,求所有数的拆分后的数字之和,如286 拆分成2、8、6,如1到11拆分后的数字之和 => 1 + ... + 9 + 1 + 0 + 1 + 1 int i = 5659553 ; Stri...原创 2012-02-02 16:57:07 · 193 阅读 · 0 评论 -
一个不会重复的HelloWord 随机大小写....
一个不会重复的HelloWord 随机大小写....代码没有做过优化.效率不高但是条件满足[code="java"]import java.util.Random;public class RandomHelloWord { static int[] ints = new int[1024] ; static Random r = new Random() ; ...原创 2011-12-01 16:53:11 · 134 阅读 · 0 评论 -
元宵爬虫-YuanXiaoSpider
翻译了下..没有元宵的淫文啊....所以用PinYing吧... 这几天写了一个爬虫可以做定向爬虫.也可以做全网爬虫. 该考虑的部分考虑了..不该考虑的没考虑 这里是个程序运行的大概UML不怎么会画凑合看吧[img]http://dl.iteye.com/upload/attachment/0062/9439/c9c5f8e6-6a16-3833-bd62-d92b...原创 2012-02-06 12:25:01 · 150 阅读 · 0 评论 -
大话字符编码发展史
ASCII码 ASCII码于1968年提出,用于在不同计算机硬件和软件系统中实现数据传输标准化,在大多数的小型机和全部的个人计算机都使用此码。ASCII码划分为两个集合:128个字符的标准ASCII码和附加的128个字符的扩充和ASCII码。比较EBCDIC。其中95个字符可以显示。另外33个不可以显示。 标准ASCII码为7位,扩充为8位。 美国(国家)信息交换标准(代)码,一种使...原创 2012-04-06 17:17:53 · 299 阅读 · 0 评论 -
贝叶斯学习笔记
一.什么是贝叶斯 贝叶斯是数学统计分类发放.可以预测类成员关系的可能性.如果直接说起贝叶斯.那么他就是一个数学模型.数学模型我的理解就是.将显示生活中的一些现象通过.数学公式予以表示. 二.关于贝叶斯朴素分类 我们希望得出P(C|D) D=document(文档) C=category(类别) 如果八股一点可以这么陈述.在条件C下.D的后验概率....原创 2012-04-19 11:21:21 · 148 阅读 · 0 评论 -
二叉树法插入查找例子
二分法查找...查找...代码比较简单...没有注释了[code="java"]public class BinaryTree { public static void main(String[] args) { BinaryTree bt = new BinaryTree(); int[] ints = {12,123,21,123,1,432,23,42...原创 2011-09-13 14:52:33 · 118 阅读 · 0 评论 -
java Hash算法大全(转载的)
[code="java"]/*** Hash算法大全* 推荐使用FNV1算法* @algorithm None* @author Goodzzp 2006-11-20* @lastEdit Goodzzp 2006-11-20* @editDetail Create*/public class HashAlgorithms{ /**//** ...原创 2011-09-09 00:05:53 · 108 阅读 · 0 评论 -
Nutch Crawler工作流程及文件格式详细分析
http://blog.youkuaiyun.com/kauu/archive/2007/10/14/1823830.aspx Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。一、相关的数据结构Crawl DB● CrawlD...原创 2009-11-18 16:18:05 · 143 阅读 · 0 评论 -
nutch与hadoop
Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),转化链...原创 2009-11-20 11:33:30 · 170 阅读 · 0 评论 -
lucene.net 某些类的介绍
在Lucene.Net索引开发中,用到的类不多,这些类是索引过程的核心类。其中Analyzer是索引建立的基础,Directory是索引建立中或者建立好存储的介质,Document和Field类是逻辑结构的核心,IndexWriter是操作的核心。其他类的使用都被隐藏掉了,这也是为什么Lucene.Net使用这么方便的原因。 2.1 Analyzer 前面已经对Analyzer进...原创 2009-12-02 13:07:36 · 135 阅读 · 0 评论 -
lucene 3.0 sort 类适用--个人看的没做注释
[code="java"]package org.apache.lucene.demo;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import java.util.Random;import org...2009-12-23 22:51:39 · 134 阅读 · 0 评论 -
JDOM解析UTF-8的处理
在网上看了一些处理方法..都比较奇怪...找了半天没找到...然后我是这么处理的不一定对.帖出来吧也许有的人有用..如果错了请大家指点[code="java"]StringBuilder sb = new StringBuilder() ; SAXBuilder saxBuilder = new SAXBuilder(); InputStream is = new File...2009-08-07 11:16:29 · 142 阅读 · 0 评论 -
java Process 命令小全
java的Runtime.getRuntime().exec(commandStr)可以调用执行cmd指令。cmd /c dir 是执行完dir命令后关闭命令窗口。cmd /k dir 是执行完dir命令后不关闭命令窗口。cmd /c start dir 会打开一个新窗口后执行dir指令,原窗口会关闭。cmd /k start dir 会打开一个新窗口后执行dir指...原创 2010-06-28 12:08:11 · 275 阅读 · 0 评论 -
一个通用html抽取类
首先先放正文,我把换行去掉了为了省正则的写法.下面以新浪微博为例子然后就是我的代码了[code="java"]package com.ansj.sun.pojo;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import java.util.regex...原创 2011-08-17 00:27:29 · 2231 阅读 · 0 评论 -
socket服务类.在csdn花了5分下载下来的
我当时花了5分下载下来的.在这里免费发布..有参考价值要给我留言啊..做人要有人品的[code="java"]package test.sockettest;/** * * @author chenjd */import java.io.IOException;import java.net.InetAddress;import java.net.InetSo...原创 2011-08-17 11:20:57 · 121 阅读 · 0 评论 -
java 解析文件 大全
公司有个项目让java从各种文档中抽取正文.于是费了很多经历来写起初..去网上找demo一下是摘抄一个哥们的例子[code="java"]package org.css.resource.businesssoft.searchengine.quwenjiansuo;import java.io.File;import java.io.FileInputStream;im...原创 2010-10-22 09:21:34 · 368 阅读 · 0 评论 -
2B高亮.单位要用凑合用吧..自己趁着老婆洗狗的时候写的
[size=xx-large][b]没有用任何算法.没有用任何设计.没有任何参考价值.[/b][/size][code="java"]import java.util.ArrayList;import java.util.HashSet;import java.util.Iterator;import java.util.List;import java.util.Set;...原创 2011-08-29 21:12:49 · 122 阅读 · 0 评论 -
BitMap 用于查重..只能查数字
[code="java"]package ansj.sun.util;public class BitMap { private static final byte MAX = 127; public static void main(String[] args) throws InterruptedException { int m = 1578015112 ; ...原创 2011-09-01 10:26:17 · 212 阅读 · 0 评论 -
Java版本的BloomFilter (布隆过滤器)
哈哈...我终于写了个BloomFilter这个是干嘛用的???恩...一般比较常见的应用是字符串去重..也就是...恩..就是采集网址去重.防止重复采集下面是我自己写的个例子[code="java"]BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStrea...原创 2011-09-08 17:38:18 · 1407 阅读 · 1 评论 -
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词
大家好.最近在做分词.在分词中遇到了各种各样的问题.在这里选择一个比较有意思的与大家分享. 在这里说分词有点老生常谈了.的确.中文分词已经非常成熟了.但是在实体名识别上一直是中文分词的软肋.最近通过对ictclas的学习,和自己的总结.得出了一个还算不错的人名识别系统. 目前这种方式已经开源.大家可以参看:[url]https://github.com...2012-09-14 13:35:23 · 364 阅读 · 0 评论