
数据挖掘篇
文章平均质量分 76
shunqs
这个作者很懒,什么都没留下…
展开
-
文本相似度计算-编辑距离
一、概念编辑距离:编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。如:将sailn一字转成failing:sailn--->failn: (s->f)插入,删除sailn--->failin: (+i) 插入sailn---...原创 2014-07-20 22:52:06 · 610 阅读 · 0 评论 -
文本相似度计算-google的simHash汉明距离
一、概述 针对文本相似性计算,很多开发朋友首先想到的应该是使用向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。想想像Google这种全网...原创 2014-07-22 17:27:27 · 1384 阅读 · 0 评论 -
数据挖掘-基于模板的属性抽取
信息抽取是一个互联网自然语言处理的一个首要环节,信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音,获取网页有价值的信息如网页的标题、时间、正文、链接等信息。 根据工作中的实际应用,下面简单介绍一下基于网页模板的属性抽取方法: 一、模板特征 网页属于半结构化的文本,同一网站中的网页结构往往是固定的,网页中的内容可能随时改变...原创 2014-07-25 22:04:41 · 1709 阅读 · 1 评论 -
数据挖掘-基于dom树的网页属性抽取方法应用
提纲 一、简介 二、应用举例 三、思想 四、实现 五、html-Dom树特征 一、简介 基于Dom树的抽取技术根据html网页所具有的树形层次结构特征来实现html网页中的数据抽取。其系统通常先把html网页结构按照其中的html标签解析成基于Dom树的层次结构,其次通过某种方法把所要抽取的数据定位在Dom树的...原创 2014-07-26 12:46:43 · 1269 阅读 · 0 评论 -
数据挖掘-机器学习:Kmean聚类思想
一、概述 数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。 K-means是一种基于距离的迭代式算法[1]。它将n...原创 2014-07-26 22:18:06 · 363 阅读 · 0 评论 -
数据挖掘-文本分类:特征选择方法总结
一、概念二、特征选择方法总结 一、概念 特征词选择和特征词权重 1.特征词选择:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。 常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutua...原创 2014-07-27 16:02:50 · 2420 阅读 · 0 评论