
数据挖掘
文章平均质量分 94
HuFeiHu-Blog
知无涯者,虚心若愚,求知若饥,勇者天佑!
展开
-
Sqoop详细介绍包括:sqoop命令,原理,流程
一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。转载 2017-08-02 07:57:34 · 562 阅读 · 0 评论 -
模式识别二--分类器的性能评价
文章转自:http://www.kancloud.cn/digest/prandmethod/102844模式识别:分类器的性能评价最近开始了模式识别的学习,对模式和模式类的概念有一个基本的了解,并使用MATLAB实现一些模式类的生成。而接下来如何对这些模式进行分类成为了学习的第二个重点。我们都知道,一个典型的模式识别系统是由特征提取和模式分类两个阶段组成的,而其中模式分类转载 2016-11-26 19:21:54 · 1634 阅读 · 0 评论 -
模式识别三--MATLAB实现贝叶斯分类器
文章转自:http://www.kancloud.cn/digest/prandmethod/102845贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化,它遵循“多数占优”这一基本原则。一、分类器的基本概念经过了一个阶段的模式识转载 2016-11-26 19:23:51 · 21507 阅读 · 0 评论 -
机器学习资源大全中文版
我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理。awesome-machine-learning 就是 josephmisiti 发起维护的机器学习资源列表,内容包括了机器学习领域的框架、库以及软件(按编程语言排序)。Awesome 系列虽然挺全,但基本只对收录的资源做了极为简要的介绍,如果有更详细的中文介绍,对相应开发者的帮助会更大。这也是我们发起转载 2016-11-26 13:01:24 · 1411 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习常见算法分类汇总 2016-11-08 算法与数学之美原文出处:IT经理网 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍转载 2016-11-26 13:00:22 · 983 阅读 · 0 评论 -
诠释数据降维算法:一文讲尽t-分布邻域嵌入算法(t-SNE)如何有效利用
摘要: t-分布领域嵌入算法(t-SNE, t-distributed Stochastic Neighbor Embedding )是目前一个非常流行的对高维度数据进行降维的算法, 由Laurens van der Maaten和 Geoffrey Hinton于2008年提出。这个算法已经在机器学习领域(文中所有截图,都有华丽的动态效果,详情请点击原文:http://distill转载 2016-11-26 12:42:55 · 5797 阅读 · 0 评论 -
推荐系统中常用算法 以及优点缺点对比
在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基 于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息转载 2016-11-26 08:12:32 · 10485 阅读 · 0 评论 -
推荐系统必读的10篇精选技术文章
推荐系统近几年来一直十分火热,目前几乎所有的电子商务系统、社交网络,广告推荐,搜索引擎等等,都不同程度的使用了各种形式的推荐系统。想知道电商如何向你发送广告的?想了解社交网络怎么推荐好友的?想自己搭建一个推荐系统?想了解一些算法或架构从而将自己的推荐系统做得更好?InfoQ为你整理了一系列的有关推荐系统的算法文章,以及主要从电商和社交网络方面选取了一些优秀的案例,来看看这些关于推荐系统的优秀文章吧转载 2016-11-26 08:11:03 · 866 阅读 · 0 评论 -
机器学习数据挖掘-软件、网站、课程资源知识点汇总
以下文章转载自:http://blog.youkuaiyun.com/zouxy09/article/details/8102252 ,感谢原作者!!!机器学习知识点学习zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 在学习机器学习的有关知识时,搜索到JerryLead的cnblog中的Machine Le转载 2016-11-22 17:02:30 · 1255 阅读 · 0 评论 -
数据挖掘各种算法JAVA的实现方法
数据挖掘-关联分析频繁模式挖掘Apriori、FP-Growth及Eclat算法的JAVA及C++实现:网址:http://blog.youkuaiyun.com/yangliuy/article/details/7494983数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)http://blog.youkuaiyun.com/yangliuy/ar转载 2016-11-22 17:00:56 · 5719 阅读 · 0 评论 -
18大经典数据挖掘算法小结
本文所有涉及到的数据挖掘代码的都放在了我的github上了。地址链接: https://github.com/linyiqun/DataMiningAlgorithm大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自转载 2016-11-22 16:52:14 · 484 阅读 · 0 评论 -
链接挖掘算法--PageRank算法和HITS算法
参考资料:http://blog.youkuaiyun.com/hguisu/article/details/7996185更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm链接分析在链接分析中有2个经典的算法,1个是PageRank算法,还有1个是HITS算法,说白了,都是做链接分析的。具体是怎么做呢,继续往下看。Pa转载 2016-11-22 16:50:47 · 753 阅读 · 0 评论 -
Apache Spark:大数据处理统一引擎
工业和研究中数据的大幅增长为计算机科学带来了巨大的机会与挑战。由于数据大小超过了单台机器的能力,用户需要新的系统将计算扩展到多个节点。因此,针对不同计算工作负载的新集群编程模型已呈爆炸式增长。图1这些模型相对专业化。例如支持批处理的MapReduce,支持迭代图算法的Dreme。在开源Apache Hadoop堆栈中,类似Storm和Impala的系统也是特有的。即使在关系数据库世界中转载 2016-11-22 16:47:16 · 597 阅读 · 0 评论 -
复杂网络研究机构与大牛
国外:美国东北大学复杂网络研究中心: www.barabasilab.comBarabasi教授:http://nd.edu/~alb/ (大牛)康奈尔大学TAM实验室:http://tam.cornell.edu/Steven. H. Strogatz:tam.cornell.edu/faculty-bio.cfm?NetID=shs7 (大牛)Dun转载 2016-11-21 22:43:46 · 9339 阅读 · 1 评论 -
复杂网络机遇和挑战(十大问题)
复杂网络的相关研究进入中国已经十年,同时一年一度的全国复杂网络大会也已经进入了第九届。在过去的十年中,很多研究方向受到来自不同研究领域学者们的广泛关注,并极大的推动了复杂网络和复杂性科学的发展。同时,我们也注意到,随着信息技术的飞速发展,使得可供研究的数据也越来越丰富。基于大数据的定量化分析对重塑社会学、心理学、管理学等多个学科范式,通过理论研究、算法设计、应用实施、平台架构等多种手段推复杂性科学转载 2016-11-21 22:49:20 · 5703 阅读 · 0 评论 -
谱聚类算法及其代码(Spectral Clustering)
本文转自:http://blog.youkuaiyun.com/liu1194397014/article/details/52990015简介文章将介绍谱聚类(spectral clustering)的基本算法,以及在matlab下的代码实现。介绍内容将包括:从图分割角度直观理解谱聚类谱聚类算法步骤数据以及实现代码本文将不会涉及细节化的证明和推导,如有兴趣可参考july大神的文章从拉转载 2016-12-03 16:31:38 · 4178 阅读 · 1 评论 -
数据降维工具箱drtoolbox
这里有两个这个工具箱的简单介绍:【Matlab】数据降维工具箱drtoolboxhttp://blog.youkuaiyun.com/xiaowei_cqu/article/details/7515077【Dimensionality Reduction】数据降维方法分类http://blog.youkuaiyun.com/xiaowei_cqu/article/details/7522368转载 2016-12-03 15:35:48 · 2800 阅读 · 1 评论 -
模式识别一--利用MATLAB生成模式类
最近开始了模式识别的学习,在此之前需要对模式和模式类的概念有一个了解,这里使用MATLAB实现一些模式类的生成。在此之前,引用百科上对于模式识别和模式类的定义,也算加深以下了解:模式识别(Pattern Recognition):人类在日常生活的每个环节,从事着模式识别的活动。可以说每个有正常思维的人,在他没有入睡时都在进行模式识别的活动。坐公共汽车找汽车站,骑车判别可行进道路,对观察到的转载 2016-11-26 19:17:41 · 8965 阅读 · 1 评论 -
模式识别四--最大似然估计与贝叶斯估计方法
文章转自:http://www.kancloud.cn/digest/prandmethod/102846 之前学习了贝叶斯分类器的构造和使用,其中核心的部分是得到事件的先验概率并计算出后验概率 ,而事实上在实际使用中,很多时候无法得到这些完整的信息,因此我们需要使用另外一个重要的工具——参数估计。参数估计是在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过转载 2016-11-26 19:29:12 · 7277 阅读 · 0 评论 -
数据仓库--数据仓库系统的实现与使用(含OLAP重点讲解)
第三篇:数据仓库系统的实现与使用(含OLAP重点讲解)阅读目录前言创建数据仓库ETL:抽取、转换、加载OLAP/BI工具数据立方体(Data Cube)OLAP的架构模式小结回到顶部前言 上一篇重点讲解了数据仓库建模,它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些组件的开发,其中最主要的是ETL工程,在线分析处理工具(O转载 2017-08-01 15:18:37 · 470 阅读 · 0 评论 -
数据仓库--数据仓库与数据集市建模
第二篇:数据仓库与数据集市建模阅读目录前言维度建模的基本概念维度建模的三种模式实例:零售公司销售主题的维度建模更多可能的事实属性经典星座模型缓慢变化维度问题数据仓库建模体系之规范化数据仓库数据仓库建模体系之维度建模数据仓库数据仓库建模体系之独立数据集市三种数据仓库建模体系对比小结回到顶部前言 数据仓库建模包含了几种数据建模技术,除了之前在数据库系列转载 2017-08-01 15:17:30 · 834 阅读 · 0 评论 -
数据仓库--数据仓库概述
阅读目录前言数据库的"分家"操作型数据库 VS 分析型数据库数据仓库(data warehouse)定义数据仓库组件数据集市(data mart)数据仓库开发流程小结回到顶部前言 阅读本文前,请先回答下面两个问题: 1. 数据库和数据仓库有什么区别? 2. 某大公司Hadoop Hive里的关系表不完全满足完整/参照性约束,转载 2017-08-01 15:16:10 · 749 阅读 · 0 评论 -
Mapreduce 矩阵相乘应用--计算文本间的相似度
最近在处理文本之间相似度的时候,遇到这样的问题:现在每天要计算800w文本两两之间的相似度。给出的输入数据样例是这样的:第一个字段为文本的ID,其余字段为 词|权重 ……。 原本作矩阵我采取的通用做法为缓存小表。然后将大表作为输入,然后进行计算。 现在数据规模变大了,当然要采取另外的一种方式进行处理。数据存储从要求中可以分析出,这个矩阵是一个稀疏矩阵,因转载 2017-06-01 23:00:32 · 1988 阅读 · 0 评论 -
大规模文档相似度计算—基于MapReduce框架
现有Doc-word矩阵,采用余弦计算两两文档之间的相似度。在实际问题中,矩阵通常是很稀疏的,为了减少计算量,通常采用倒排索引的数据结构[1], 将包含相同word的doc映射到同一个节点上, 这样只需计算相似度不为0的文档之间的相似度, 从而减少计算量,具体过程如图1所示。 图1. 建立倒排索引计算文档相似度(来源于参考文献[1]) 上述方法虽然避转载 2017-06-01 22:53:25 · 2608 阅读 · 0 评论 -
java Socket 使用通用json包 发送 json对象
在使用json进行socket进行通信中,由于服务器使用的json 和 客户端使用的json版本不同,因此改用通用的json包来通信。引入的包为 org.json,jar 可以通用,而且不必使用其他的一些需要引入的其他json依赖包文章中的例子是将一张图片发送到服务器端,服务器端收到信息之后返回给客户端是否接受成功的信息这里贴出客户端与服务器端的代码客户端:转载 2017-06-01 22:49:06 · 4057 阅读 · 0 评论 -
两篇文章相似度:TF-IDF与余弦相似性的应用
TF-IDF与余弦相似性的应用(一):自动提取关键词作者: 阮一峰日期: 2013年3月15日这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及转载 2017-06-01 21:58:54 · 1590 阅读 · 0 评论 -
数据挖掘学习清单
基础篇矩阵背后的现实意义概率分布无约束最优化方法拉格朗日乘子法和KKT条件推荐相关性检验协同过滤推荐算法分类朴素贝叶斯LRSVM聚类KMeansDBScanCHAMELEONGMM决策树ID3C4.5AdaboostGBDT关联规则挖掘AprioriFP-Tree序列标记HMM1HMM2转载 2016-12-20 09:58:39 · 379 阅读 · 0 评论 -
25个Java机器学习工具&库
本列表总结了25个Java机器学习工具&库:1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习算法(分类、回归转载 2017-01-05 18:27:44 · 416 阅读 · 0 评论 -
如何用Spark解决一些经典MapReduce问题
如何用Spark解决一些经典MapReduce问题目录 最大值最小值平均值问题TopN问题 Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让你的程序在内存中运行时速度提升100倍,或者在磁盘上运行时速度提升...转载 2016-12-08 19:25:53 · 2367 阅读 · 2 评论 -
模式识别十一--分类回归决策树CART的研究与实现
文章转自:http://www.kancloud.cn/digest/prandmethod/102853摘 要:本实验的目的是学习和掌握分类回归树算法。CART提供一种通用的树生长框架,它可以实例化为各种各样不同的判定树。CART算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的决策树的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。在M转载 2016-11-26 19:40:16 · 1187 阅读 · 0 评论 -
模式识别十--k-均值聚类算法的研究与实现
本实验的目的是学习和掌握k-均值聚类算法。k-均值算法是一种经典的无监督聚类和学习算法,它属于迭代优化算法的范畴。本实验在MATLAB平台上,编程实现了k-均值聚类算法,并使用20组三维数据进行测试,比较分类结果。实验中初始聚类中心由人为设定,以便于实验结果的比较与分析。一、技术论述1.无监督学习和聚类在之前设计分类器的时候,通常需要事先对训练样本集的样本进行标定以确定类别归属。这种利转载 2016-11-26 19:38:06 · 1151 阅读 · 0 评论 -
模式识别九--模拟退火算法的设计与实现
本文转自:http://www.kancloud.cn/digest/prandmethod/102851 本节的目的是记录以下学习和掌握模拟退火(Simulated Annealing,简称SA算法)过程。模拟退火算法是一种通用概率算法,用来在一个大的搜寻空间内寻找命题的最优解。这里分别使用随机模拟退火算法和确定性模拟退火算法,在MATLAB平台上进行编程,以寻找一个6-单转载 2016-11-26 19:37:15 · 7978 阅读 · 0 评论 -
模式识别八--三层BP神经网络的设计与实现
本文的目的是学习和掌握BP神经网络的原理及其学习算法。在MATLAB平台上编程构造一个3-3-1型的singmoid人工神经网络,并使用随机反向传播算法和成批反向传播算法来训练这个网络,这里设置不同的初始权值,研究算法的学习曲线和训练误差。有了以上的理论基础,最后将构造并训练一个3-3-4型的神经网络来分类4个等概率的三维数据集合。一、技术论述1.神经网络简述神经网络是一种可以适应复杂转载 2016-11-26 19:35:01 · 4261 阅读 · 0 评论 -
模式识别七--非参数估计法之Parzen窗估计和k
文章转自:http://www.kancloud.cn/digest/prandmethod/102849 本实验的目的是学习Parzen窗估计和k最近邻估计方法。在之前的模式识别研究中,我们假设概率密度函数的参数形式已知,即判别函数J(.)的参数是已知的。本节使用非参数化的方法来处理任意形式的概率分布而不必事先考虑概率密度的参数形式。在模式识别中有躲在令人感兴趣的非参数化方法转载 2016-11-26 19:33:54 · 4285 阅读 · 2 评论 -
模式识别六--感知器的实现
文章转自:http://www.kancloud.cn/digest/prandmethod/102848 在之前的模式识别研究中,判别函数J(.)的参数是已知的,即假设概率密度函数的参数形式已知。本节不考虑概率密度函数的确切形式,使用非参数化的方法来求解判别函数。由于线性判别函数具有许多优良的特性,因此这里我们只考虑以下形式的判别函数:它们或者是x的各个分量的线性函数,或者转载 2016-11-26 19:31:57 · 1706 阅读 · 0 评论 -
模式识别五--PCA主分量分析与Fisher线性判别
文章转自:http://www.kancloud.cn/digest/prandmethod/102847 本实验的目的是学习和掌握PCA主分量分析方法和Fisher线性判别方法。首先了解PCA主分量分析方法的基本概念,理解利用PCA 分析可以对数据集合在特征空间进行平移和旋转。实验的第二部分是学习和掌握Fisher线性判别方法。了解Fisher线性判别方法找的最优方向与非最转载 2016-11-26 19:30:39 · 2471 阅读 · 0 评论 -
图数据挖掘--六度分隔
六度分隔(Six Degrees of Separation)现象(又称为“小世界现象”small world phenomenon),可通俗地阐述为:“你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。”中文名六度分隔外文名Six Degrees of Separation发现者Stanley Milgram发现时间1967年转载 2016-11-21 17:02:36 · 1970 阅读 · 0 评论 -
网页的“六度分隔理论”:从一个网页到另外一个网页,最多只需19次点击
网页的“六度分隔理论”:从一个网页到另外一个网页,最多只需19次点击其他黑太一 • 2013-02-20 07:18海量的单个元素聚到一起之后,它们之间的联系会促成惊人的变化,多细胞生物、蜂群、人类社会都是例证。同人类社会里的六度分隔理论类似的是,网页也有这种规律。近日匈牙利物理学家Barabási发现,在全世界140亿个网页中,从其中任一个到另一个,最多只需19次跳转。网页的原创 2016-11-21 16:53:36 · 512 阅读 · 0 评论 -
大数据等最核心的关键技术:32个算法
奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序。1、A* 搜索算法——图形搜索算法,从给定起点到给转载 2016-12-11 22:24:05 · 3711 阅读 · 0 评论 -
谱聚类--Ng算法的Matlab简单实现
请编写一个谱聚类算法,实现“Normalized Spectral Clustering—Algorithm 3 (Ng 算法)”结果如下谱聚类算法核心步骤都是相同的:•利用点对之间的相似性,构建亲和度矩阵;•构建拉普拉斯矩阵;•求解拉普拉斯矩阵最小的特征值对应的特征向量(通常舍弃零特征所对应的分量全相等的特征向量);•由这些特征向量构成样本点的新特征,采用K-转载 2016-12-11 22:21:59 · 2669 阅读 · 0 评论