
算法篇
文章平均质量分 85
shunqs
这个作者很懒,什么都没留下…
展开
-
c++ 实现-基本排序算法
一直以来就很想整理一下基本的算法实现,工作太忙一直没有来得及整理。基本排序算法: 首先:代码实现 一、直接插入排序 二、冒泡排序 三、直接选择排序 四、希尔排序 五、快速排序 六、归并排序 七、堆排序 八、总结 首先:代码实现 1.algorith.h文件 #...原创 2014-07-06 22:22:23 · 135 阅读 · 0 评论 -
KMP算法思想及实现
KMP算法是通过分析模式字符串,预先计算每个位置发生不匹配的时候,所需GOTO的下一个比较位置,整理出来一个next数组,然后在上面的算法中使用。 参考一个牛人的文章:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html 举例说明:有一个字符串"BBC A...原创 2014-07-17 11:42:09 · 657 阅读 · 0 评论 -
文本相似度计算-编辑距离
一、概念编辑距离:编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。如:将sailn一字转成failing:sailn--->failn: (s->f)插入,删除sailn--->failin: (+i) 插入sailn---...原创 2014-07-20 22:52:06 · 610 阅读 · 0 评论 -
文本相似度计算-google的simHash汉明距离
一、概述 针对文本相似性计算,很多开发朋友首先想到的应该是使用向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。想想像Google这种全网...原创 2014-07-22 17:27:27 · 1384 阅读 · 0 评论 -
常见算法+基础常用问题
这篇文章,在我之前的博客地址中,很早之前写过的(源于从外国的文章中看到的,所以算是转载吧)。今天拿出来,已做备份只用。主要讲解的是:字符串,链表,树,图,排序,递归 vs. 迭代,动态规划,位操作,概率问题,排列组合 使用的开发语言:java(有兴趣的朋友可以用c/c++尝试一下)。 1.字符串和数组应用 首先需要注意的是和C++不同,Java字符串不是char...原创 2014-03-04 17:37:09 · 223 阅读 · 0 评论 -
数据挖掘-基于dom树的网页属性抽取方法应用
提纲 一、简介 二、应用举例 三、思想 四、实现 五、html-Dom树特征 一、简介 基于Dom树的抽取技术根据html网页所具有的树形层次结构特征来实现html网页中的数据抽取。其系统通常先把html网页结构按照其中的html标签解析成基于Dom树的层次结构,其次通过某种方法把所要抽取的数据定位在Dom树的...原创 2014-07-26 12:46:43 · 1269 阅读 · 0 评论 -
数据挖掘-机器学习:Kmean聚类思想
一、概述 数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。 K-means是一种基于距离的迭代式算法[1]。它将n...原创 2014-07-26 22:18:06 · 363 阅读 · 0 评论 -
数据挖掘-文本分类:特征选择方法总结
一、概念二、特征选择方法总结 一、概念 特征词选择和特征词权重 1.特征词选择:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。 常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutua...原创 2014-07-27 16:02:50 · 2420 阅读 · 0 评论