
数据挖掘
決心
致力于解决实际问题
展开
-
文本特征选择算法:卡方检验和信息增益
转载自:http://blog.sina.com.cn/s/blog_6622f5c30101datu.html 特征提取步骤: 1. 卡方检验1.1 统计样本集中文档总数(N)。 1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。 1.3 计算每个词的卡方值,公式如下:1.4 将每个词按卡方值从大到小排序,选取前k个词作为特征,k即转载 2016-04-19 19:11:12 · 2632 阅读 · 0 评论 -
浅谈信息过滤
年终岁尾,一边跑着模型,一边整理下今年的工作,除了开始做了些聚类,rank工作,后来主要集中在信息过滤方面:视频聊天审核,新闻评论审核,新闻文本内容黄反检测,垃圾图片检测以及新闻推广内容过滤。首先谈谈聊天过滤。直播间聊天,其实很难用机器学习模型训练,因为数据常常人为可以增加噪声,希望通过噪声的作弊,来发表一些被屏蔽的言论。而这些噪声大多集中在间隔符,拼音,形近字,音近字的形式,并且具有快速扩展的特原创 2017-01-23 11:45:07 · 2591 阅读 · 1 评论 -
有小改进的最大公共子串计算
实际应用,两个String的相似性判定,要去除标点符号,甚至停用词等,然后对于连续的数字要降低权重,比如同样有“2016”只能作为一个相似度。 具体代码,去停词那个以后再发,需要一个停词表+扫描的数据结构算法,达到近乎索引的效率。还有的是用分词,分词会有词性属性帮助去停词,但是思路和这个就不一样了。下面是字符串的转换,转换为String【】,而且因为去掉了标点,将连续数字合一,减少了计算量,速度比原创 2016-07-28 18:41:34 · 437 阅读 · 0 评论 -
SVM推导帖子收藏
SVM推导里看过的不错的两个帖子,还有就是《机器学习实战》中的SVM那一章的SMO的简单实现的python代码,学习SVM的可以看一看,比《统计学习》书里的部分,细节要详细些。'''Created on Nov 4, 2010Chapter 5 source file for Machine Learing in Action@author: Peter'''from numpy impo原创 2016-04-19 19:20:00 · 568 阅读 · 0 评论 -
数据挖掘相关资料收集(持续更新)
1.ChinaKDD,数据挖掘研究院,强烈推荐,里面有很多很好的学习资料 http://www.chinakdd.com/article-oyU85v018dQL0Iu.html原创 2016-04-21 18:58:09 · 381 阅读 · 0 评论 -
Sqoop详细介绍包括:sqoop命令,原理,流程
一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。三 Sqoop 命令Sqoop大约有13种命转载 2016-04-22 15:14:15 · 1080 阅读 · 0 评论 -
常见面试之机器学习算法思想简单梳理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国内大点的公转载 2016-04-21 18:55:55 · 407 阅读 · 0 评论 -
常见的各种距离总结
原帖:http://blog.youkuaiyun.com/shiwei408/article/details/7602324 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:转载 2016-04-21 17:30:59 · 4311 阅读 · 0 评论 -
马氏距离与欧式距离
欧式距离很常用,分离器最后计算时很多都是用欧式距离, 公式: [(x1-x2)^2+(y1-y2)^2]^1/2但是很多时候,特征的各个维度(属性)的数值差异很大,比如身高,体重,有时候我们常用标准化来解决,比如求取每种特征的Max和Min,然后用特征的值去除以(Max-Min),得到的就是标准化后的值。而马氏距离,采用里另一种方法,通过对差异乘各属性的协方差矩阵,来保持各个属性的差异,公式:原创 2016-04-21 17:28:58 · 4465 阅读 · 0 评论 -
k-means 简单实现
同学很久以前做的,那时候我刚实习,他刚参加工作(他是两年制),那时候开始对数据挖掘感兴趣,他发给我的他自己做的demo。 原帖地址:http://www.cnblogs.com/niuxiaoha/p/4645989.htmlpackage neugle.kmeans;import java.io.BufferedReader;import java.io.FileNotFoundExcepti原创 2016-04-20 19:16:10 · 703 阅读 · 0 评论 -
文本小票的一种无监督聚类方法
基于ostu的无监督文本聚类 对于区分不同店铺的小票效果良好 同店铺小票不同类别区分效果一般,但是对于离群点定位(小样本类别很精准),借鉴了TF/IDF的思想,还有词处理时的去停词,词频因素的考虑优化,分类的阈值计算为每次基于相似度集合的前后背景最大分割点,不断二分类。 ostu为图像二值化处理时的一种算法(类间最大方差),图像专业,前年第一次尝试做聚类时的一个想法和实现,前后设计调优用了三天,不原创 2016-04-19 19:49:49 · 656 阅读 · 0 评论 -
机器学习之数据清理经验
文本类数据,尤其二分类,如果正反比悬殊(超过1:10),反例极容易出现包含正例的噪声(人工标注准确率95%) 1.这时,首先去除反例中和正例完全相同的误分类(比如新闻,就是标题;聊天数据就是去掉不可见字符后的文本) 2.视数据质量,也可以用一些高阈值的相似性比较方法,比如杰卡德,余弦,编辑距离等,再去除一部分噪声 3.训练好的分类器,在正例分类器中,按分类器的分值进行排序,头部的“误召回”通常原创 2017-03-20 20:37:59 · 1319 阅读 · 1 评论