
数据挖掘
光于前裕于后
本人有多年大数据与机器学习开发经验,并乐于总结与分享,如有侵权或写的不对的地方可以私信我,有问题也可以问我哟,free~
展开
-
SNA社交网络分析
放两张图----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------原创 2016-04-06 17:20:30 · 3722 阅读 · 2 评论 -
用R语言对高维数据进行降维聚类展示
【为什么要降维】 *维数灾难:在给定精度下,准确地对某些变量的函数进行估计,所需样本量会随着样本维数的增加而呈指数形式增长。 *降维的意义:克服维数灾难,获取本质特征,节省存储空间,去除无用噪声,实现数据可视化 强烈推荐几篇博客: https://www.douban.com/note/469279998/ http://bindog.github.io/blog/2016/06/04/f原创 2016-10-26 12:22:29 · 12394 阅读 · 3 评论 -
Mahout开发中发现缺少MySQLJDBCDataModel类
在pom中加入<dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.9-cdh5.4.5</version></dependency>发现并没有引入org.apache.mahout.cf.taste.impl原创 2016-10-14 17:33:50 · 3835 阅读 · 3 评论 -
Mahout聚类分析
转自:http://www.cnblogs.com/jerome-rong/archive/2012/05/22/2513262.html 写的很好!聚类分析什么是聚类分析?聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对转载 2016-10-09 14:26:35 · 1285 阅读 · 0 评论 -
Mahout K-Means输出结果解析
怎么使用Mahout做聚类有空我会专门写的,这篇博客主要为了讲一下Mahout处理的结果。 Mahout版本为0.9,数据没做归一化、标准化,只是为了测试。输出目录下有clusteredPoints、cluster-x、cluster-(x+1)-final等几个文件夹,x表示第x次迭代,每次的迭代结果都会存到cluster-x,最后一次(x+1)迭代结果存在cluster-(x+1)-final原创 2016-10-19 17:12:09 · 4314 阅读 · 0 评论 -
Spark MLlib RandomForest(随机森林)建模与预测
我要做的是发现异常用户,而我们之前没有已经打上异常不异常标签的样本,所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了MLlib。下面是用R获取正负样本#1.将kmeans标出的异常类标为1作为正样本,其它类标为0作为负样本#1.1原创 2016-11-21 12:03:57 · 8314 阅读 · 4 评论 -
用R进行多元线性回归分析建模
概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。原创 2016-05-31 22:20:37 · 52774 阅读 · 2 评论 -
天池新人实战赛——阿里移动推荐算法大赛(离线赛与平台赛)
竞赛题目 (离线赛与平台赛题目一样,只是数据量不一样,离线2000w+条数据,平台11亿+条数据)在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:U——用户集合I——商品全集P——商品子集,P⊆ID——用户对商品全集的行为数据集合...原创 2016-04-13 17:04:23 · 15164 阅读 · 7 评论 -
2019JDATA用户对品类下店铺的购买预测(机器学习一般步骤总结)
文章目录赛题介绍建模流程1.查看分析数据2.数据清洗3.构造数据集(特征工程)4.特征选择5.模型选择6.参数选择7.模型训练与测试8.模型融合赛题介绍赛题网址:https://jdata.jd.com/html/detail.html?id=8赛题背景京东零售集团坚持“以信赖为基础、以客户为中心的价值创造”这一经营理念,在不同的消费场景和连接终端上,在正确的时间、正确的地点为3亿多活跃...原创 2019-05-26 16:52:20 · 5330 阅读 · 3 评论 -
基于划分的聚类----K-means算法使用(R语言)
library(amap)#这个包里有kmeans函数library(R2SWF)library(animation)#导入包,后两个是作动画的包customer <- read.csv("customer.csv")#读取文件,赋给customerage_inc <- customer[,c(3,6)]#获取customer的第三列和第六列(如果是3:6就是三到六列)赋给age_inc原创 2016-04-05 20:04:00 · 7319 阅读 · 0 评论 -
基于层次的聚类----AGNES算法使用(R语言)
凝聚# 产生数据集x<-c(rnorm(200,30,1),rnorm(200,10,1.5),rnorm(100,5,0.5))y<-c(rnorm(200,30,1),rnorm(200,10,1.5),rnorm(100,5,0.5))data<-data.frame(x,y)# 彩色空间library(colorspace)# 显示数据集的结构str(data)# 系统原创 2016-04-06 11:09:36 · 5157 阅读 · 0 评论 -
基于密度的聚类----DBSCAN算法使用(R语言)
扫描半径 (eps)和最小包含点数(minPts)library(cluster)#做聚类的包library(fpc)#有dbscancity <- read.csv("中国城市坐标.csv")x <- city[,c(3,2)]#行,列#ds <- dbscan(x, 2)#2是半径,最小点数默认为5ds <- dbscan(x, 2,6)#ds <- dbscan(x,1,3)原创 2016-04-06 16:37:50 · 11442 阅读 · 0 评论 -
验证码识别(Tess4J初体验)
遇到一道机试题当时就懵逼了0.0查了好多资料,大体知道了基本的步骤:1.预处理 2.灰度化 3.二值化 4.去噪 5.分割 6.识别还好题目要求不严格,可以使用开源程序。机智的我还真找到一个:Tesseract下面开始正文:Tess4J官方描述:A Java JNA wrapper for Tesseract OCR API.1.先去官网下载:http://原创 2016-05-07 22:21:20 · 39707 阅读 · 20 评论 -
机器学习入门——以阿里移动推荐算法大赛为例
从数据中学的模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成,如GBDT。训练过程中使用的数据称为“训练数据”,其中的每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)。原创 2016-04-19 20:25:22 · 6206 阅读 · 1 评论 -
天池新人实战赛——阿里移动推荐算法大赛(御膳房、DTPAI、ODPS初体验)
几个名词:ODPS(OpenData Processing Service):开放数据处理服务由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。DT(data technology):数据时代PAI(Platform of Artificial Intelligence):人工智能平台ODPS SQL:类似于SQL的语原创 2016-04-12 18:18:15 · 4572 阅读 · 0 评论 -
用R进行一元线性回归分析建模
概念:一元线性回归预测是指成对的两个变量数据的散点图呈现出直线趋势时,采用最小二乘法,找到两者之间的经验公式,即一元线性回归预测模型。根据自变量的变化,来估计因变量变化的预测方法。我用的是R内置数据集mtcars,要预测的是当每加仑汽油能跑23英里(mpg=23)的车有多重(wt?)。下面贴一下代码,代码较简单,但重要的是这个流程!1.attach(mtcars);pl原创 2016-05-31 15:59:34 · 12119 阅读 · 0 评论 -
“联创黔线”杯大数据应用创新大赛
文章目录赛题介绍代码1 特征工程1.1 正样本1.2 负样本2 建模3 预测3.1 测试集4 提交结果0 查看数据0.1 训练数据0.1.1 正样本0.1.2 负样本0.1.3 天气数据0.2 测试数据0.2.1 测试集0.2.2 天气数据赛题地址:https://www.kesci.com/home/competition/5be92233954d6e001063649a又打了个酱油,最终成...原创 2019-07-31 18:59:12 · 2584 阅读 · 0 评论