
算法讨论
ansj
以上信息将会公开显示在您的个人页面中。如需修改昵称、密码、头像等,请从 [优快云 会员帐户设置] 中修改
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法
经过了n长时间.有时候想放弃有时候.想继续断断续续的.终于写完了CQ分词的基本原型.目前实现了正向最大匹配.和正向最好匹配.全文全匹配取词等功能.希望大家能支持我.我一定会写出更好的分词的.[b]分词的速度.大家自己试去吧.我这里是300w字/s.估计我电脑好点吧嘿嘿[/b] :lol: 传统的分词方式有: 整词二分法 结构:首字散列表、词索引表、词典正文 优点:数...2009-06-30 10:08:27 · 287 阅读 · 0 评论 -
简单版数独计算器-升级版
只能算初级的..高级的就溢出了就算内存无穷大.可能性超过了20亿就数组放不下了因为是广度优先吧..所以..争取能写个深度优先的办法哎..好难啊..头发掉了好多[code="java"]package com.ansj.ansjIndex;import java.util.ArrayList;import java.util.Arrays;...原创 2011-11-03 12:28:56 · 220 阅读 · 0 评论 -
[转载]大数据量,海量数据 处理方法总结(转载)
原文地址:大数据量,海量数据 处理方法总结(转载)作者:秋金遇水最近有点忙,稍微空闲下来,发篇总结贴。大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面...原创 2012-01-06 11:52:50 · 138 阅读 · 0 评论 -
文本相似度计算-Levenshtein
参见网址http://www.merriampark.com/ld.htm#JAVA[code="java"]import java.util.BitSet;public class Distance { public static void main(String[] args) { Distance distance = new Distance() ;...原创 2012-01-13 11:26:29 · 253 阅读 · 0 评论 -
<<这就是搜索引擎>>学习笔记-算法之索引压缩
前一段时间.在微博上中奖了.一个叫张俊林的帅锅.送了俺一本书.由于工作(其实是懒惰),一直木有好好看..书到手一个月了才看了80多页.现在终于要过年了.开始看了..顺路给自己做个笔记.在这里我郑重推荐此书 定 价:¥45.00作 者:张俊林 著出 版 社:电子工业出版社出版时间:2012-1-1[url]http://product.da...原创 2012-01-19 16:20:24 · 154 阅读 · 0 评论 -
一个排好序的数组,找出两数之和为m的所有组合
[code="java"]public static void main(String[] args) throws UnsupportedEncodingException { int[] ints = { 1, 5, 10, 11 , 13, 18, 22 ,55 }; int find = 23; int start = 0; int end = ints.len...原创 2012-02-02 16:34:19 · 283 阅读 · 0 评论 -
一个不会重复的HelloWord 随机大小写....
一个不会重复的HelloWord 随机大小写....代码没有做过优化.效率不高但是条件满足[code="java"]import java.util.Random;public class RandomHelloWord { static int[] ints = new int[1024] ; static Random r = new Random() ; ...原创 2011-12-01 16:53:11 · 134 阅读 · 0 评论 -
元宵爬虫-YuanXiaoSpider
翻译了下..没有元宵的淫文啊....所以用PinYing吧... 这几天写了一个爬虫可以做定向爬虫.也可以做全网爬虫. 该考虑的部分考虑了..不该考虑的没考虑 这里是个程序运行的大概UML不怎么会画凑合看吧[img]http://dl.iteye.com/upload/attachment/0062/9439/c9c5f8e6-6a16-3833-bd62-d92b...原创 2012-02-06 12:25:01 · 150 阅读 · 0 评论 -
贝叶斯学习笔记
一.什么是贝叶斯 贝叶斯是数学统计分类发放.可以预测类成员关系的可能性.如果直接说起贝叶斯.那么他就是一个数学模型.数学模型我的理解就是.将显示生活中的一些现象通过.数学公式予以表示. 二.关于贝叶斯朴素分类 我们希望得出P(C|D) D=document(文档) C=category(类别) 如果八股一点可以这么陈述.在条件C下.D的后验概率....原创 2012-04-19 11:21:21 · 148 阅读 · 0 评论 -
介绍一种基于角色标注+字词体位法的人名识别方式-Ansj中文分词
大家好.最近在做分词.在分词中遇到了各种各样的问题.在这里选择一个比较有意思的与大家分享. 在这里说分词有点老生常谈了.的确.中文分词已经非常成熟了.但是在实体名识别上一直是中文分词的软肋.最近通过对ictclas的学习,和自己的总结.得出了一个还算不错的人名识别系统. 目前这种方式已经开源.大家可以参看:[url]https://github.com...2012-09-14 13:35:23 · 361 阅读 · 0 评论 -
算法实现系列第一章.冒泡排序
package algorithm;public class Bubbling { public static void main(String[] args) { int[] ints = {123,1,31,31,432,42,1,23,556,75,67,76,8,6} ; int temp = 0 ; for (int i = 0; i < i...原创 2013-01-08 15:47:26 · 175 阅读 · 0 评论 -
算法实现系列第二章.堆排序
说白了就是二叉树排序..java中hashset中非基本数据类型的对象比较就是用的这个方式... package binarytree;public class BinaryTree { public static void main(String[] args) { Node root = null; int[] ints = { 123, 1234...原创 2013-01-08 15:56:16 · 148 阅读 · 0 评论 -
算法实现系列第三章.快速排序
先剽窃jdk的...package algorithm;import java.util.Arrays;/** * 快速排序,哦也 * * @author ansj * */public class QuickSort { public static void main(String[] args) { long[] ints = {...原创 2013-01-08 16:05:25 · 119 阅读 · 0 评论 -
算法实现系列第四章.启发式搜索_A*搜索
..很郁闷启发式搜索和A*搜索.自己对照文档写了下..发现和之前学的有出入...算了先写这个吧..等我回去翻翻笔记...如果有问题再来补充..明白的同学可以直接拍砖... 下面我们对这个图进行..最短路径的查 package algorithm;import java.util.ArrayList;import java.util.HashMap;import ...原创 2013-01-09 14:31:30 · 390 阅读 · 0 评论 -
两个大数字相乘
没什么只是.一个demo package net.csdn.service.tag.impl;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import love.cq.util.StringUtil;import net.csdn.exception.A...原创 2013-01-10 14:54:47 · 156 阅读 · 0 评论 -
算法实现系列第五章.viterbi算法
[code="java"]package algorithm;public class Viterbi { /** * 维特比算法(Viterbi algorithm)是一种动态规划算法。它用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规...原创 2013-01-10 14:57:34 · 249 阅读 · 0 评论 -
java算法专题-归并排序
归并的思想就是分治.时间复杂度..忘记了大概实现了下..还真挺费劲的...很受打击啊...还有什么好的排序算法..大家给推荐下我试着弄弄没怎么写注释..以此作为我的备用.这几天的思考中我终于发现..理解和会用和精通是两个概念..学海无涯.人生苦短啊[code="java"]public class Test1 { public sta...原创 2011-11-02 21:32:36 · 125 阅读 · 0 评论 -
论坛里看到的华为面试题
[code="java"]import java.util.ArrayList;import java.util.Arrays;import java.util.HashMap;import java.util.List;import java.util.Map;/** * * @项目名称:TestProject * @类名称:NewHua * @类描述:...原创 2011-08-01 14:20:44 · 101 阅读 · 0 评论 -
倒排索引的测试.一个超级简单的实现.
两个类一个写入对象.一个读入对象还需要一个词典,写几个词作测试[code="java"]美人计美人蕉美人鱼美容美发店美容师美容术美容院美声美食美食城美食家美事美术美术馆美术家美术界美术年美术片美术品美术师美术室美术纸美术字美谈美味美文美协美学美学家美意[/...原创 2009-12-29 23:22:00 · 148 阅读 · 0 评论 -
看网友的一道腾讯面试题有感
10000+个数字钟找出top100[code="java"]import java.util.Arrays;import java.util.Random;public class Top100 { private static Node head = null; private static Node end = null; private static N...2010-04-02 17:41:43 · 139 阅读 · 0 评论 -
CQ V2.0分词bates(基于双数组tire树)
再发一个版本吧..具体实现了如下功能用户自定义词典其中你可以再userLibrary中加入你要分的词英文分词数字分词量词分词比如16月 16日 16年.......支持了中文姓名的识别...分词量很多..速度没好意思测试..如果有人测试了麻烦告诉我下...希望大家能多给指正...ansj在这里谢谢大家了...2009-08-06 15:16:28 · 156 阅读 · 0 评论 -
今天在网上看到一个好玩的题目哪来练练哈
[quote]好像描述的由点问题,再细化点吧! 1、找出 连续相同的字符个数最少为min的字符串 2、对字符串排序,这里的排序不是指按字母排序,而是按“连续相同的字符个数”排序 比如:str1="abcdbcebcgh" str2="eabcfbcxbcv" min=2 所得的结果希望是: NO1. str1: start 0; end 2; str2: start 1...原创 2010-01-28 10:56:44 · 134 阅读 · 0 评论 -
关于中文分词.
最近总有人问我那个分词的问题.其实是很早以前写的一个小程序了.当时写的的确是挺费劲的.这个算法的文档我在以前博客里面发过.大家可以下载.我认为双数组tire树.原理不是很复杂.只是在词典的构造中.去重要求很高.最近几天...想试着把分词重新写一次.也不知道会写不了..写的过程中的经验我会和大家分享.今天晚上开工......原创 2010-06-29 14:22:07 · 108 阅读 · 0 评论 -
Double-Array Trie 原理解析
Trie树是搜索树的一种,它在本质上是一个确定的有限状态自动机,每个结点代表一个状态,根据输入变量的不同,进行状态转移。 为了减少Trie树结构的空间浪费,同时保证Trie[/size]树查询的效率,有研究者提出了用三个线性数组表示Trie树的方法,并在此基础上进一步改进,用两个数组来表示Trie树,也就是双数组Trie树(Double-Array Trie)...原创 2010-06-30 10:11:24 · 308 阅读 · 0 评论 -
猴子吃桃子问题
[code="java"]/** * * 有一只猴子,第一天摘了若干个桃子 ,* 当即吃了一半,但还觉得不过瘾 ,就又多吃了一个。* 第2天早上又将剩下的桃子吃掉一半,还是觉得不过瘾,就又多吃了两个。* 以后每天早上都吃了前一天剩下的一半加天数个* (例如,第5天吃了前一天剩下的一般加5个)。* 到第n天早上再想吃的时候,就只剩下一个桃子了...原创 2011-04-21 18:14:45 · 149 阅读 · 0 评论 -
特大数除以3
[code="java"]/** * * 283749872394710328409248123904891274891234972394723947923749831274308923048902480328490/3 = ?* */public class BigNum { public static void main(String[] args) { ...原创 2011-04-22 14:29:51 · 165 阅读 · 0 评论 -
一个通用html抽取类
首先先放正文,我把换行去掉了为了省正则的写法.下面以新浪微博为例子然后就是我的代码了[code="java"]package com.ansj.sun.pojo;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import java.util.regex...原创 2011-08-17 00:27:29 · 2226 阅读 · 0 评论 -
BitMap 用于查重..只能查数字
[code="java"]package ansj.sun.util;public class BitMap { private static final byte MAX = 127; public static void main(String[] args) throws InterruptedException { int m = 1578015112 ; ...原创 2011-09-01 10:26:17 · 212 阅读 · 0 评论 -
Java版本的BloomFilter (布隆过滤器)
哈哈...我终于写了个BloomFilter这个是干嘛用的???恩...一般比较常见的应用是字符串去重..也就是...恩..就是采集网址去重.防止重复采集下面是我自己写的个例子[code="java"]BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStrea...原创 2011-09-08 17:38:18 · 1406 阅读 · 1 评论 -
java Hash算法大全(转载的)
[code="java"]/*** Hash算法大全* 推荐使用FNV1算法* @algorithm None* @author Goodzzp 2006-11-20* @lastEdit Goodzzp 2006-11-20* @editDetail Create*/public class HashAlgorithms{ /**//** ...原创 2011-09-09 00:05:53 · 108 阅读 · 0 评论 -
二叉树法插入查找例子
二分法查找...查找...代码比较简单...没有注释了[code="java"]public class BinaryTree { public static void main(String[] args) { BinaryTree bt = new BinaryTree(); int[] ints = {12,123,21,123,1,432,23,42...原创 2011-09-13 14:52:33 · 118 阅读 · 0 评论 -
二分法查找
[code="java"]import java.util.Arrays;/** * * @项目名称:Test * @类名称:BinarySearch * @类描述: 二分法查找* @创建人:Ansj * @创建时间:2011-9-13 下午02:53:47 * @修改备注: * @version * */publ...原创 2011-09-13 15:03:32 · 173 阅读 · 0 评论 -
一个关键字标红的通用类
[code="java"]import java.lang.reflect.Array;import java.util.Arrays;import java.util.HashSet;import java.util.Iterator;import java.util.Set;/*** 文本坐标记用的* tagBegin是开始标记* tagEnd 是结束标记...原创 2011-09-15 20:32:46 · 373 阅读 · 0 评论 -
算法实现系列第六章.桶排序
[code="java"]package algorithm;/** * 桶排序 * @author ansj * */public class BucketSort { /** * 这个排序算法很恶心.但是容易写我凑个数呵呵 * @param args */ public static void main(String[] args) {...原创 2013-01-10 15:18:42 · 143 阅读 · 0 评论