
算法
文章平均质量分 55
amongdata
关注技术管理、企业架构、业务架构等,曾就职于思科(CRDC)、网易、阿里等企业
展开
-
查找水军王(问题分析)状态机
来源:三山五岳合创: http://www.tnove.com/?p=184随着网络时代到来,出现了一种新的职业“水军”。他们主要的工作就是给需要访问的网站提供访问。说白了就是职业刷信用人员,职业投票人员,职业评论人员。每天花大量时间在网上评论,制造虚假访问评价信息。对于这样的人员我们需要尽量挖出他们来。 假设现在有一个刷虚假信用的水军人员。我们不知道他的ID,只知原创 2012-11-30 15:54:00 · 1465 阅读 · 0 评论 -
Hash 函数的现状,2012
看到一篇介绍hash的文章不错,所以翻译了一下。原文:http://blog.reverberate.org/2012/01/state-of-hash-functions-2012.html经典的非加密hash函数在最近几年取得了迅速的发展,最近搜索相关信息,高兴的发现又有前沿的hash函数发布了,虽然离上一次看到新hash函数的时间才半年或一年。非加密hash函数以一个翻译 2013-09-22 19:54:43 · 2316 阅读 · 0 评论 -
什么事SVM中的VC维
年 9 月 23 日在机器学习里我们常常看到这样的说法:一般而言,VC维越大, 学习能力就越强,学习也越复杂;可以通过VC维计算学习风险的上界。但进一步对VC维的介绍却不多,例如,VC维是什么?如何计算VC维?等根据百度百科:VC维(Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学理论定义的有关函数集学习...原创 2013-09-23 20:45:35 · 3580 阅读 · 0 评论 -
数据挖掘:Top 10 Algorithms in Data Mining(七)AdaBoost
Adaboost 是boosting算法的变形,全称为adaptive boosting(自适应增强)。该方法主要是通过多个弱分类器的集合来使得分类误差达到足够小。理论上通过adaboost方法可以使得分类误差为0。但我们知道通常情况下训练分类器误差为0时会过拟合。 关于boosting算法参考《Boosting Foundations and Algorithms》以及wik原创 2013-03-03 13:06:41 · 1658 阅读 · 0 评论 -
数据挖掘:Top 10 Algorithms in Data Mining(六)PageRank
Pagerank因google的快熟发展并提供高质量搜索结果而受到广泛关注。Pagerank的主要目标是评价网页的重要程度,并以此作为网页的排名依据。算法主要参考网页被引用的数量,及引用者的权威性。参考下面的简单的网页引用模型: 首先我们需要一个合适的数据结构来表示这个网络结构。这涉及到图的表示,我们在数据结构课程中学过,常用的方法是邻接矩阵法和链接法。实际中不会单独的只使用某一种原创 2013-03-03 12:59:36 · 1622 阅读 · 0 评论 -
数据挖掘:Top 10 Algorithms in Data Mining(五)EM算法
EM的核心是通过已有的数据来递归的估计似然函数,常用用在样本特征丢失的情况中。其前身为Baum-Welch算法。EM与K-means比较:计算复杂,收敛较慢,依赖初始值,容易进入局部最优点。 K-means的迭代步骤可以看成E步和M步,E:固定参数类别中心向量重新标记样本,M:固定标记样本调整类别中心向量。K均值只考虑(估计)了均值,而没有估计类别的方差,所以聚类的结构比较适合于特原创 2013-03-03 12:52:58 · 1206 阅读 · 0 评论 -
数据挖掘:Top 10 Algorithms in Data Mining(四)Apriori 关联分析
http://tnove.com先引用IDMer整理的图初步了解下Apriori 上面对apriori算已经做了简单介绍。该算法最早用于购物篮挖掘,频繁项的挖掘。其伪代码为:Apriori算法的缺点在于其在实际计算中消耗较大,针对Apriori的缺点华裔学者韩家炜提出FP-Tree算法针对Apriori存储扫描进行了改进。同时FP-tree为TOP 10原创 2013-03-03 12:47:47 · 2030 阅读 · 0 评论 -
数据挖掘:Top 10 Algorithms in Data Mining(三)SVM
SVM(support vector machine)是一种基于分类间隔(margin)来训练的分类器,它是在1995年左右由Vapnik等人基于VC维而提出的高效分类器,其原理如下图最大化类间间隙。参考出处 SVM主要用于解决小样本和非线性分类问题。SVM解决非线性问题的办法为通过将原有的非线性可分的空间通过映射转换到高维线性可划分空间中,因此SVM会使得特征空间的维数升高。此原创 2013-01-15 18:55:58 · 1493 阅读 · 0 评论 -
数据挖掘:Top 10 Algorithms in Data Mining(二)K-Means算法
先引用IDMer整理的图初步了解下K-meansK-means也被称为C-means,因为它的目标是要找到c个均值向量u1,u2,……uc。除上面提到的用处,k-means还常用于加速其它算法的收敛。聚类算法主要有两类:硬聚类和软聚类(FCM)。K-means属于前者。K-means的两大难点是确定c的数值和避免算法的抖动(不稳定性)。对这两个问题都有大量的针对性的原创 2013-01-07 10:34:06 · 2107 阅读 · 0 评论 -
量手知姓氏 :算命测姓氏 之 数学原理
三山五岳斋:http://www.tnove.com/ 多次看到街上出现不开口侧姓氏的“神算”,如量手知姓氏,喜鹊测姓氏等。围观者众多,一试真假者也络绎不绝。那么“神算”怎么测准你的姓氏呢?是科学的神奇,还是神秘的超自然力量?今天我们就来解开其中的数学原理:神算的数学之路首先我们看看神算测姓氏的过程。需要两个工具:一张姓氏大全纸,如上图。通常分原创 2012-12-10 18:26:55 · 13365 阅读 · 0 评论 -
(bitmap)给定一个字符串数组,从中找出第一个只出现一次的字母
来源:山三五岳合创:http://www.tnove.com/?p=170今天针对该问题看有什么可以优化的地方: 首先看看网上一个同学的解法:利用哈希表,因为字符最多只有255个,可以 利用这个特性建立一个哈希表,将字符串中所有的字符映射到 这个哈希表中,记录出现的每个字符的个数。最后查找哈希表 获取第一个出现字数为一的字母。 这里有一个问题,我们如何知道我们取到的是字符串原创 2012-11-30 15:55:55 · 1981 阅读 · 0 评论 -
web 动态随机验证码图片生成【最新】
随机图片校验码验证码生产包,用于生产动态图片校验码,验证码图片生成原创 2016-10-18 15:34:38 · 3359 阅读 · 2 评论