
集体智慧编程
文章平均质量分 73
san_rx
这个作者很懒,什么都没留下…
展开
-
搜索与排名
一、搜索 1、爬虫 一般爬虫将网络视为一张图,对于图而言,常见的算法有两种:深度优先和广度优先 2、分词与索引 爬虫获取的一般都是文档,我们需要进行分词处理,处理之后,搜索引擎要完成从单词到文档的映射,一般采取倒排索引的方法。 二、排名 在获得了与查询条件相匹配的网页之后,排名是不可缺少的。 1、基于内容的排名 单词频度:一般而言,目标单词在文档中出现的次数越多,则相关性越高。 文原创 2017-11-09 16:10:29 · 730 阅读 · 0 评论 -
推荐
一、推荐算法的分类二、协同过滤以用户为基础(User-based)的协同过滤 用相似统计的方法得到具有相似爱好或者兴趣的相邻用户,所以称之为以用户为基础(User-based)的协同过滤或基于邻居的协同过滤(Neighbor-based Collaborative Filtering)。 方法步骤: 1.收集用户信息 收集可以代表用户兴趣的信息。一般的网站系统使用评分的方式或是给予评价,这种方原创 2017-11-05 20:19:59 · 477 阅读 · 0 评论 -
聚类
一、分级聚类 Hierarchical Cluster 分级聚类通过连续不断的将最为相似的群组两两合并,来构造一个群组的层次结构。其中的每个群组都是从单一元素开始,在每次迭代的过程中,都会计算两个群体之间的距离,并将距离最近的两个群组合并。并重复这一过程,直到只剩一个群组。 代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等; 二、划分法 使用这个基本思想的算原创 2017-11-06 17:42:50 · 624 阅读 · 0 评论 -
优化
1、成本函数 成本函数是用优化算法解决问题的关键它通常最难确定。任何优化算法的目标就是要寻找一组能够使成本函数的返回结果达到最小化的输入,,因此成本函数需要返回一个值用以表示方案的好坏。 2、随机搜索 从 输入集中随机选取一部分,然后确定成本最小的输入,得到的可能是较小值,不是最小值,该算法不是一种非常好的优化算法,但简单容易,可以作为评估其他算法优劣的基线。 3、爬山法 较低成本值所对应原创 2017-11-22 18:06:45 · 462 阅读 · 0 评论 -
文档过滤
1、早期的过滤器早期的都是基于规则的分类器,使用事先设计好的一组规则,用于指明某条信息属于垃圾信息。典型的规则有: -英文大写字母的过度使用 -与医药学相关的单词 -过于花哨的HTML用色等2、智能分类器a. 特征提取将单词作为文档的特征,其假设:某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词,他们也可以是词组或者短语,或者任何可以归为文档中缺失或者不存在的其他东西。 如何选原创 2017-11-25 19:52:40 · 366 阅读 · 0 评论