
DataMining
文章平均质量分 89
Garvin Li
Dancing with data
展开
-
JAVA HashMap单key多value的实现及迭代器打印(附源码)
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景 在处理大量数据的时候,当遇到单键值多数据的情况下可以选择用HashMap配合ArrayList进行存储,使用迭代器打印相关数据。如下图:2.代码实现import java.awt.List;import java.io.BufferedReader;import原创 2014-04-15 11:18:02 · 2908 阅读 · 4 评论 -
【机器学习算法-python实现】Adaboost的实现(1)-单层决策树(decision stump)
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景 上一节学习支持向量机,感觉公式都太难理解了,弄得我有点头大。不过这一章的Adaboost线比较起来就容易得多。Adaboost是用元算法的思想进行分类的。什么事元算法的思想呢?就是根据数据集的不同的特征在决定结果时所占的比重来划分数据集。就是要对每个特征值都构建决策树,并且赋予他们不同的原创 2014-05-06 07:31:38 · 9569 阅读 · 1 评论 -
【机器学习算法-python实现】svm支持向量机(2)—简化版SMO算法
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景知识 通过上一节我们通过引入拉格朗日乗子得到支持向量机变形公式。详细变法可以参考这位大神的博客——地址 参照拉格朗日公式F(x1,x2,...λ)=f(x1,x2,...)-λg(x1,x2...)。我们把上面的式子变型为: 约束条件就变成了:原创 2014-05-04 14:29:43 · 4256 阅读 · 0 评论 -
【机器学习算法-python实现】KNN-k近邻算法的实现(附源码)
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景 今后博主会每周定时更新机器学习算法及其python的简单实现。今天学习的算法是KNN近邻算法。KNN算法是一个监督学习分类器类别的算法。 什么是监督学习,什么又是无监督学习呢。监督学习就是我们知道目标向量的情况下所使用的算法,无监督学习就是当我们不知道具体的目标变量的情况下所使原创 2014-04-23 08:24:30 · 15394 阅读 · 1 评论 -
【机器学习算法-python实现】K-means无监督学习实现分类
1.背景 无监督学习的定义就不多说了,不懂得可以google。因为项目需要,需要进行无监督的分类学习。 K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法。 大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心。一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设原创 2014-07-11 08:30:15 · 9116 阅读 · 3 评论 -
【机器学习算法-python实现】扫黄神器-朴素贝叶斯分类器的实现
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景 以前我在外面公司实习的时候,一个大神跟我说过,学计算机就是要一个一个贝叶斯公式的套用来套用去。嗯,现在终于用到了。朴素贝叶斯分类器据说是好多扫黄软件使用的算法,贝叶斯公式也比较简单,大学做概率题经常会用到。核心思想就是找出特征值对结果影响概率最大的项。公式如下:原创 2014-04-29 08:31:06 · 17976 阅读 · 3 评论 -
【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)原创 2014-04-24 07:28:55 · 20738 阅读 · 5 评论 -
【问底】严澜:数据挖掘入门——分词
谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头也在积极布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,着实难以下手、非常头大!我们不妨先跳过数学公式,看转载 2014-09-14 10:47:26 · 2444 阅读 · 1 评论 -
新闻个性化推荐系统(python)-(附源码 数据集)
1.背景 最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编...原创 2014-09-25 08:32:55 · 45284 阅读 · 43 评论 -
Todd.log - a place to keep my thoughts on programming TF-IDF模型的概率解释
转自:http://www.cnblogs.com/weidagang2046/archive/2012/10/22/tf-idf-from-probabilistic-view.html信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] ... w[k]组成的查询串q,返回一个按查询q和文转载 2014-09-25 13:26:09 · 1967 阅读 · 0 评论 -
Kmeans、Kmeans++和KNN算法比较
K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。其聚类过程可以用下图表示: 如图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示。(a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样,都是绿色的。(b)假设数据集可转载 2015-03-12 16:34:03 · 1388 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一个问题的建模有不同的方式转载 2015-07-24 09:12:16 · 2322 阅读 · 0 评论 -
【机器学习PAI实践一】搭建心脏病预测案例
产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2一、背景心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用。本文原创 2016-12-13 15:06:33 · 10656 阅读 · 10 评论 -
【机器学习算法-python实现】矩阵去噪以及归一化
/********************************* 本文来自博客 “李博Garvin“* 转载请标明出处:http://blog.youkuaiyun.com/buptgshengod******************************************/原创 2014-07-08 10:46:36 · 10844 阅读 · 6 评论 -
【机器学习算法-python实现】协同过滤(cf)的三种方法实现
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)原创 2014-05-16 11:47:24 · 8022 阅读 · 0 评论 -
【机器学习算法-python实现】svm支持向量机(1)—理论知识介绍
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景 支持向量机SVM(support vector machines)。SVM是一种二值分类器,是近些年比较流行的一种分类算法。本文,首先要介绍一些基本的知识概念,在下一章将对SVM进行简单地代码实现。2.基本概念(1)线性可分原创 2014-04-30 15:31:21 · 7821 阅读 · 2 评论 -
【机器学习算法-python实现】svm支持向量机(3)—核函数
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景知识 前面我们提到的数据集都是线性可分的,这样我们可以用SMO等方法找到支持向量的集合。然而当我们遇到线性不可分的数据集时候,是不是svm就不起作用了呢?这里用到了一种方法叫做核函数,它将低维度的数据转换成高纬度的从而实现线性可分。 可能有的人不明白为什么低维度的数据集转换成高原创 2014-05-05 07:37:06 · 5896 阅读 · 0 评论 -
云端大数据实战记录-大数据推荐
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景 这是博主第一次大数据实战的经历,之前都是自己写一些算法然后测试很小的数量级。这次是真正接触到TB集的数据,而且完全是在云端处理。下面就把这次的经历简单分享一下。首先简单介绍一下这次比赛的环境吧:1.云:采用的是阿里云2.数据:从四月十五号到八月十五号期间,用户两千多万的购买行为(包括时间,购买、收原创 2014-06-16 07:16:07 · 5998 阅读 · 6 评论 -
斯坦福机器学习公开课学习笔记(1)—机器学习的动机与应用
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.北京原创 2014-06-05 08:38:19 · 3368 阅读 · 0 评论 -
【机器学习算法-python实现】PCA 主成分分析、降维
1.背景 PCA原创 2014-07-17 09:40:47 · 10425 阅读 · 4 评论 -
斯坦福机器学习公开课学习笔记(2)—监督学习 梯度下降
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1原创 2014-06-06 16:26:17 · 2099 阅读 · 0 评论 -
斯坦福机器学习公开课学习笔记(3)—拟合问题以及局部权重回归、逻辑回归
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)原创 2014-06-09 15:13:02 · 2850 阅读 · 0 评论 -
【云端大数据实战】大数据误区、大数据处理步骤分析
1.背景 本文思路的依据来源于本次原创 2014-07-21 07:53:45 · 7362 阅读 · 7 评论 -
csdn开源夏令营-ospaf中期报告
1.背景 随着将中期的代码托管到优快云的平台上,ospaf(开源项目成熟度分析工具)已经有了小小的雏形,当然还远远不够。 首先还是要感谢这次活动组织方优快云,感觉挺有Google Summer Code 中国版的味道。还有就是我的夏令营导师David,给了我很多指导和帮助,线下的交流也很让我长见识。 接着来说ospaf这个项目(有兴趣的tx可以去看题案,地址)。原创 2014-07-25 15:32:07 · 2389 阅读 · 1 评论 -
【机器学习算法-python实现】最大似然估计(Maximum Likelihood)
1.背景 最大似然估计是概率论中常常涉及到的一种统计方法。大体的思想是,在知道概率密度f的前提下,我们进行一次采样,就可以根据f来计算这个采样实现的可能性。当然最大似然可以有很多变化,这里实现一种简单的,实际项目需要的时候可以再更改。 博主是参照wiki来学习的,地址请点击我 这里实现的是特别简单的例子如下(摘自wiki的最大似然)离散分布,离散原创 2014-08-25 11:09:02 · 27382 阅读 · 2 评论 -
【机器学习算法-python实现】采样算法的简单实现
1.背景 采样算法是机器学习中比较常用,也比较容易实现的(出去分层采样)。常用的采样算法有以下几种(来自百度知道): 一、单纯随机抽样(simple random sampling)将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本。优点:操作简单,均数、率及相应的标准误计算简单。 缺点:总体较大时,难以一一编号。二、系统抽样(systemat原创 2014-07-14 16:05:43 · 9655 阅读 · 3 评论 -
【机器学习算法-python实现】决策树-Decision tree(2) 决策树的实现
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景 接着上一节说,没看到请先看一下上一节关于数据集的划分数据集划分。现在我们得到了每个特征值得信息熵增益,我们按照信息熵增益的从大到校的顺序,安排排列为二叉树的节点。数据集和二叉树的图见下。(二叉树的图是用python的matplotlib库画出来的)数据集:原创 2014-04-25 08:26:14 · 13529 阅读 · 0 评论 -
【机器学习算法-python实现】逻辑回归的实现(LogicalRegression)
(转载请注明出处:http://blog.youkuaiyun.com/buptgshengod)1.背景知识 在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法。 (1)回归 先来说说什么是回归,比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非原创 2014-04-30 08:00:39 · 31802 阅读 · 5 评论