
Algorithm
文章平均质量分 77
「已注销」
这个作者很懒,什么都没留下…
展开
-
【bloom filter】布隆过滤器 (Bloom Filter) 详解
转载自:http://www.cnblogs.com/allensun/archive/2011/02/16/1956532.html布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判转载 2012-12-11 14:47:35 · 703 阅读 · 0 评论 -
计算机科学中最重要的32个算法
奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序。A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出转载 2013-06-19 12:12:31 · 857 阅读 · 0 评论 -
BloomFilter——大规模数据处理利器
http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.htmlBloomFilter——大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实转载 2013-09-11 15:52:14 · 765 阅读 · 0 评论 -
Bloom Filter 原理与应用
介绍Bloom Filter是一种简单的节省空间的随机化的数据结构,支持用户查询的集合。一般我们使用STL的std::set, stdext::hash_set,std::set是用红黑树实现的,stdext::hash_set是用桶式哈希表。上述两种数据结构,都会需要保存原始数据信息,当数据量较大时,内存就会是个问题。如果应用场景中允许出现一定几率的误判,且不需要逆向遍历集合中的数据时,转载 2013-09-11 16:03:59 · 1115 阅读 · 0 评论 -
几个提供大数据分析服务以及机器学习API的公司
最近看到的几个提供大数据分析服务以及机器学习API的公司2013年09月22日 ⁄ 创业 ⁄ 共 778字 ⁄ 暂无评论 ⁄ 被围观 1,177 阅读+Everstring:http://www.everstring.com/团队很强大。------------AlchemyAPI:http://www.alc转载 2013-09-24 16:52:26 · 1819 阅读 · 0 评论 -
你需要了解的未来:Andrew Ng,与他的Google Brain项目及人工智能实践
虎嗅注:人工智能现在是科技界最前沿的话题之一。以谷歌为代表,科技巨头均在这个方向上进行巨大投入。虎嗅曾发表过一篇文章,“谷歌正在如何复制人类大脑”,介绍的是谷歌工程主管雷·库兹韦尔正在如何通过机器学习颠覆传统搜索。而斯坦福大学人工智能实验室主任Andrew Ng(华裔,中文名叫吴恩达)领导的Google Brain项目,在人工智能方面走得更加前沿。去年6月,谷歌Google Brain运用深度转载 2013-09-24 19:22:09 · 2319 阅读 · 0 评论 -
LeeCode]Edit Distance
Given two words word1 and word2, find the minimum number of steps required to convert word1 to word2. (each operation is counted as 1 step.)You have the following 3 operations permitted on a w转载 2013-11-09 23:03:09 · 670 阅读 · 0 评论 -
【算法导论】第六章之堆排序
asdfasdfaspackage com.zhoujie;import java.util.Random;/** * Heap Sort * @author zhoujie */public class HeapSort { public static final int ARRAY_LENGTH = 10; public static final i原创 2012-12-18 20:07:20 · 744 阅读 · 0 评论 -
分治算法
一、基本概念 在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础,如排序算法(快速排序,归并排序),傅立叶变换(快速傅立叶变换)…… 任何一个可以用计算机求解的问题所需的计算时间都与其转载 2014-09-16 22:44:48 · 739 阅读 · 0 评论 -
五大常用算法之二:动态规划算法
一、基本概念 动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的,所以,这种多阶段最优化决策解决问题的过程就称为动态规划。二、基本思想与策略 基本思想与分治法类似,也是将待求解的问题分解为若干个子问题(阶段),按顺序求解子阶段,前一子问题的解,为后一子问题的求解提供了有用的信息。在求解任一子问题时,列出各种可能的局部解,通转载 2014-09-16 22:48:58 · 672 阅读 · 0 评论 -
五大常用算法之三:贪心算法
贪心算法一、基本概念: 所谓贪心算法是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅是在某种意义上的局部最优解。 贪心算法没有固定的算法框架,算法设计的关键是贪心策略的选择。必须注意的是,贪心算法不是对所有问题都能得到整体最优解,选择的贪心策略必须具备无后效性,即某个状态以后的过程不会影响以前的状态,只与当前转载 2014-09-16 22:49:38 · 602 阅读 · 0 评论 -
五大常用算法之四:回溯法
1、概念 回溯算法实际上一个类似枚举的搜索尝试过程,主要是在搜索尝试过程中寻找问题的解,当发现已不满足求解条件时,就“回溯”返回,尝试别的路径。 回溯法是一种选优搜索法,按选优条件向前搜索,以达到目标。但当探索到某一步时,发现原先选择并不优或达不到目标,就退回一步重新选择,这种走不通就退回再走的技术为回溯法,而满足回溯条件的某个状态的点称为“回溯点”。 许多复杂的转载 2014-09-16 22:50:14 · 759 阅读 · 0 评论 -
【算法】Modeling Rule-Based Systems with EMF
http://www.eclipse.org/articles/Article-Rule%20Modeling%20With%20EMF/article.htmlModeling Rule-Based Systems with EMFSummaryThere are examples of meta-models defined in ECore for modelin转载 2013-06-05 08:08:16 · 1713 阅读 · 0 评论 -
【fraud detection】如何防止fraud clicks(欺骗点击作弊)的分析
随着在线广告的流行,pay by per click (每次点击付钱)的模式 逐渐被大家接受。可是随之而来的问题就是fraud clicking的预防迫在眉捷,因为这将直接关系到这种广告模式能否长久生存和能否成为一种真正的网站拥有者的收入来源。下面介绍Google Adsense系统如何从系统角度出发防止点击欺骗,希望对其它的在线广告系统防止虚假点击能有很好的指导作用: 1>转载 2013-06-05 05:44:41 · 1589 阅读 · 0 评论 -
【bloom filter】Bloom Filter概念和原理
转载:http://blog.youkuaiyun.com/jiaomeng/article/details/1495500Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false posi转载 2012-12-11 14:49:32 · 583 阅读 · 0 评论 -
【bloom filter】对HBase中Bloomfilter类型的设置及使用的理解
转载:http://zjushch.iteye.com/blog/15301431.Bloomfilter的原理? 可参考 http://hi.baidu.com/yizhizaitaobi/blog/item/cc1290a0a0cd69974610646f.html 2.Bloomfilter在HBase中的作用? HBase利用Bloomfilter来提高随机读(转载 2012-12-11 15:20:34 · 1431 阅读 · 0 评论 -
【算法导论】第二章之插入排序
package com.zhoujie.chapter2;import java.util.Random;public class InsertionSort { public static final String LOG_PREFIX = "========="; public static final String ARR_DELIMITER = "\t"; public s原创 2012-12-16 08:22:05 · 615 阅读 · 0 评论 -
【算法导论】第二章之归并排序
By: 周杰Date: 2012-12-16Email: zhoujie338@126.com,sunwuwuzixu@gmail.comHomepage: http://blog.youkuaiyun.com/shuhuai007Copy原创 2012-12-16 12:22:32 · 1008 阅读 · 0 评论 -
【算法导论】第八章之计数排序
asdfspackage com.zhoujie;import java.util.Random;/** * heap sort * @author zhoujie * */public class CountSort { public static final int ARRAY_LENGTH = 10; public static final int ARRAY_MA原创 2012-12-20 09:50:52 · 553 阅读 · 0 评论 -
【算法导论】第八章之基数排序
asdfaspackage com.zhoujie;import java.util.ArrayList;import java.util.List;import java.util.Map;import java.util.Random;import java.util.TreeMap;public class RadixSort { public static final原创 2012-12-21 11:12:32 · 567 阅读 · 0 评论 -
【算法导论】第八章之桶排序
aaaaaapackage com.zhoujie;import java.util.ArrayList;import java.util.Map;import java.util.Random;import java.util.TreeMap;/** * backet sort * @author zhoujie * */public class BacketSo原创 2012-12-21 14:14:38 · 684 阅读 · 0 评论 -
【算法导论】第七章之快速排序
asdfsadfpackage com.zhoujie;import java.util.Random;public class QuickSort { public static final int ARRAY_LENGTH = 10; public static final int ARRAY_MAX_VALUE = 1000; public static final原创 2012-12-19 16:42:34 · 561 阅读 · 0 评论 -
大数据排序或取重或去重相关问题
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取 ,然后根据所取得的值将url分别存储到1000个小文件(记为 )中。这样每个小文件的大约为3转载 2013-05-21 03:08:06 · 2026 阅读 · 0 评论 -
广告防作弊技术
常见的网络广告防作弊技术 小偷和骗子都是另人可恶的,但生活中又是客观存在,作弊和欺骗点击也同样另人可恶,但又防不甚防。杜绝是不可能的,而防止是我们所有广告人的一种责任。以下是多数广告投放系统常用的几种防作弊方式,希望给每个网络营销者带来一点有用的帮助。 1、IP防止作弊 一般计费方式是按照24小时内唯一IP,可以将每个IP记入数据库,当下一个访问IP与数据库已存在的转载 2013-05-21 03:07:17 · 1552 阅读 · 0 评论 -
【fraud detection】Dempster-Shafer Theory
Dempster-Shafer Theory DS理论也被认为是信度函数理论,是主观概率(subjective probability)的贝叶斯理论的扩展。信度函数允许我们基于信度使用一个问题的概率来推导一个相关问题的概率。这些信度值可能有也可能没有概率的数学性质;他们与概率的差异大小将取决于这两个问题有多相关。 History.. DS理论基转载 2013-06-05 04:57:44 · 1621 阅读 · 0 评论 -
五大常用算法之五:分支限界法
分支限界法一、基本描述 类似于回溯法,也是一种在问题的解空间树T上搜索问题解的算法。但在一般情况下,分支限界法与回溯法的求解目标不同。回溯法的求解目标是找出T中满足约束条件的所有解,而分支限界法的求解目标则是找出满足约束条件的一个解,或是在满足约束条件的解中找出使某一目标函数值达到极大或极小的解,即在某种意义下的最优解。 (1)分支搜索算法 所谓“分支”就是采用广度转载 2014-09-16 22:48:53 · 761 阅读 · 0 评论