应用算法
文章平均质量分 79
wangqz1027
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
贝叶斯推断及其互联网应用(一):定理简介
作者: 阮一峰 日期: 2011年8月25日 一年前的这个时候,我正在翻译Paul Graham的《黑客与画家》。 那本书的第八章,写了一个非常具体的技术问题----如何使用贝叶斯推断过滤垃圾邮件(英文版)。 我没完全看懂那一章。当时是硬着头皮,按照字面意思把它译出来的。虽然译文质量还可以,但是心里很不舒服,下决心一定要搞懂它。 一年过去了,我读了一些概率论文转载 2013-06-02 17:50:23 · 591 阅读 · 0 评论 -
贝叶斯推断及其互联网应用(二):过滤垃圾邮件
作者: 阮一峰 日期: 2011年8月27日 上一次,我介绍了贝叶斯推断的原理,今天讲如何将它用于垃圾邮件过滤。 ======================================== 贝叶斯推断及其互联网应用 作者:阮一峰 (接上文) 七、什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。转载 2013-06-02 17:51:54 · 736 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
作者: 阮一峰 日期: 2013年3月15日 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经转载 2013-06-02 17:54:15 · 7007 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(三):自动摘要
作者: 阮一峰 日期: 2013年3月26日 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。 如果能转载 2013-06-02 17:55:43 · 667 阅读 · 0 评论 -
贝叶斯推断及其互联网应用(三):拼写检查
作者: 阮一峰 日期: 2012年10月16日 (这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。) 使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。 比如,你不小心输入了seperate。 Google告诉你,这个词是不存在的,正确的拼法是separate。 这就叫做"拼写检查"(s转载 2013-06-02 17:53:12 · 624 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
作者: 阮一峰 日期: 2013年3月21日 上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来转载 2013-06-02 17:54:58 · 1238 阅读 · 0 评论 -
相似图片搜索的原理(一)
作者: 阮一峰 日期: 2011年7月21日 上个月,Google把"相似图片搜索"正式放上了首页。 你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。 一个对话框会出现。 你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。 上转载 2013-06-02 17:57:14 · 646 阅读 · 0 评论 -
相似图片搜索的原理(二)
作者: 阮一峰 日期: 2013年3月31日 二年前,我写了《相似图片搜索的原理》,介绍了一种最简单的实现方法。 昨天,我在isnowfy的网站看到,还有其他两种方法也很简单,这里做一些笔记。 一、颜色分布法 每张图片都可以生成颜色分布的直方图(color histogram)。如果两张图片的直方图很接近,就可以认为它们很相似。 任何一种转载 2013-06-02 17:59:57 · 600 阅读 · 0 评论
分享