
数据挖掘
小狼_百度
百度,web系统,分布式系统,大数据,机器学习,人工智能等爱好者
展开
-
R语言学习笔记(一)
1.R入门和获得帮助1.1R软件下载网址:www.r-project.orgLinux下:sudoapt-get install r-base sudo apt-get installr-base-html r-doc-html1.2查看帮助文档>help.start()1.3获取函数的帮助文档转载 2015-04-01 18:05:48 · 673 阅读 · 0 评论 -
基于mdrill的大数据分析
数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。 mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。在阿里10台机转载 2016-01-06 17:34:38 · 702 阅读 · 0 评论 -
大索引技术,大数据的未来
不管你信也好,不信也好,大数据时代真的来临了,随着Hadoop技术的普及,其生态圈发展的越来越壮大,Hive、Hbase、Spark、Storm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间,攻陷了全部的大数据阵地。 那么传统的关系型数据库的一些思路,真的没有用武之地了么?真的就一去不复返了么?当大数据技术大旗在每个山头摇摆的时候,我们躲在角落里还能做些什么?“索引转载 2016-01-06 18:50:20 · 721 阅读 · 0 评论 -
决策树学习笔记整理
本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好转载 2016-02-18 16:37:27 · 1382 阅读 · 0 评论 -
假设检验的学习和理解
本文目的最近在Coursera上学习Data Analysis,结合前一阵子阅读的《Head First Statistics》,发现好多计算方法都涉及了假设检验(Hypothesis Test,又称“显著性检验”,Significance Test),用于检验模型的显著性。如回归分析,检测估计量的系数;卡方检验(运用卡方分布)检验模型的优度拟合和变量独立性。所以,决定梳理一下相关知识转载 2016-02-18 17:02:42 · 3295 阅读 · 1 评论 -
交叉检验---训练数据,验证数据和测试数据
最近在Coursera上学习Data Analysis课程,课程论坛中有个帖子针对交叉检验(Cross Validation)中训练数据集(train dataset),验证数据集(Validate dataset)和测试数据集(test dataset)展开讨论,内容挺好的,记录到这里,作为备忘。 交叉检验(Cross Validation)在数据分析中,有些算法需要转载 2016-02-18 18:16:01 · 3383 阅读 · 1 评论 -
弧度 和 角度的理解, 以及相互转换
这两天在看同事写的四叉树代码,其中用到了孤度和角度之间的转换,所以转载此文章进行了学习 2009-12-01弧度与角度的关系一、角的两种单位 “ 弧度”和“度”是度量角大小的两种不同的单位。就像“米”和“市尺”是度量长度大小的两种不同的单位一样。 在flash里规定:在旋转角度(rotation)里的角,以“度”为单位;在三角函数里的角要以“弧度”为单转载 2016-04-30 11:16:17 · 9547 阅读 · 0 评论 -
CPU与GPU区别大揭秘
有网友在网上提问:“为什么现在更多需要用的是 GPU 而不是 CPU,比如挖矿甚至破解密码? ”以下是比较准确靠谱的回答: 1、现在更多被需要的依然是CPU,只是GPU在大规模并发计算中体现出其一技之长所以应用范围逐渐变得广泛,并成为近些年的热点话题之一。 为什么二者会有如此的不同呢?首先要从CPU和GPU的区别说起。 CPU和GPU之所以大不相同,是由于其设计目标的转载 2016-05-25 17:44:26 · 24759 阅读 · 2 评论 -
傅里叶分析
我保证这篇文章和你以前看过的所有文章都不同,这是 2012 年还在果壳的时候写的,但是当时没有来得及写完就出国了……于是拖了两年,嗯,我是拖延症患者……这篇文章的核心思想就是:要让读者在不看任何数学公式的情况下理解傅里叶分析。傅里叶分析不仅仅是一个数学工具,更是一种可以彻底颠覆一个人以前世界观的思维模式。但不幸的是,傅里叶分析的公式看起来太复杂了,所以很多大一新生上来就懵圈转载 2016-04-19 16:25:50 · 1113 阅读 · 0 评论 -
深度学习、自然语言处理和表征方法
翻译:XiaoxiaoLi简介过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好,我们也必须思考……它们为什么这么好使?在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而转载 2016-04-19 16:30:28 · 2107 阅读 · 0 评论 -
Understanding LSTM Networks
Recurrent Neural NetworksHumans don’t start their thinking from scratch every second. As you read this essay, you understand each word based on your understanding of previous words. You don’t thro转载 2016-04-19 16:34:56 · 617 阅读 · 0 评论 -
循环神经网络(RNN, Recurrent Neural Networks)介绍
循环神经网络(RNN, Recurrent Neural Networks)介绍 循环神经网络(Recurrent Neural Networks,RNNs)已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用。但是,目前网上与RNNs有关的学习资料很少,因此该系列便是介绍RNNs的原理以及如何实现。主要分成以下几个部分对转载 2016-04-19 16:38:55 · 13591 阅读 · 0 评论 -
Mdrill项目在lucene的改进上的10点心得
Mdrill项目在lucene的改进上的10点心得 原始文档下载:https://github.com/alibaba/mdrill/blob/master/doc/Mdrill%E9%A1%B9%E7%9B%AE%E5%9C%A8lucene%E7%9A%84%E6%94%B9%E8%BF%9B%E4%B8%8A%E7%9A%8410%E7%82%B9%E5%BF%83转载 2016-01-06 17:27:32 · 797 阅读 · 0 评论 -
变异系数
变异系数(Coefficient of variation)目录[隐藏]1 什么是变异系数2 变异系数的计算[编辑]什么是变异系数 变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或转载 2015-09-25 17:41:35 · 32142 阅读 · 2 评论 -
标准差与标准偏差的区别
标准差(Standard Deviation) 各数据偏离平均数的距离(离均差)的平均数,它是离差平方和平均后的方根。用σ表示。因此,标准差也是一种平均数标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、6转载 2015-09-25 17:55:16 · 12031 阅读 · 0 评论 -
R语言学习笔记(四)
6. 数据转换 本章主要讲述apply系列函数:apply、lapply、sapply、tapply、mapply,以及姊妹函数by、split。适用于批量处理数据,而不许循环。6.1 向量分组用因子(分组因子)来标识元素的不同组:> groups 返回的是一个向量列表,列表中每个向量包含属于同一组的元素> groups 6.2转载 2015-04-01 18:21:07 · 4433 阅读 · 0 评论 -
R学习笔记
把学习过程记载下来,加深印象,到时要是忘了也容易查,有需要的同学也可以参考: 1、包的安装:两种方法:一种通过R的菜单,先设定cran镜像,然后安装程序包,会出来一个列表,选择相应程序包安装,安装完毕再点击加载程序包,找到要加载的程序包即可;另一种通过命令行代码:先install.packages("包名")安装,然后library("包名")加载;2、要善于使用帮助文档,转载 2015-04-01 17:42:26 · 965 阅读 · 0 评论 -
R语言学习笔记(二)
3R软件导览3.1获取和设定工作目录> getwd() //显示当前工作目录> setwd(“需要改变的目录”) //改变当前目录3.2保存工作空间>save.image() //生成R.data的文件存放于当前工作目录3.3查看历史命令记录> history() //括号转载 2015-04-01 18:09:28 · 1982 阅读 · 0 评论 -
R语言学习笔记(三)
5. 数据结构5.1 数据结构简介(1)向量一个向量的所有元素必须有相同的类型(模式)(2)列表列表可以非同质的列表可按位置索引:lst[[2]]抽取子列表:lst[c(2,5)]列表可以有名称:lst[[“Moe”]]或者lst$Moe列表类似于字典、散列表等(3)模式:实体类型> mode(3.1415)转载 2015-04-01 18:14:22 · 2246 阅读 · 0 评论 -
WEKA使用教程(经典教程转载)
WEKA使用教程目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时we转载 2015-04-01 18:28:33 · 1273 阅读 · 0 评论 -
什么是闭频繁项集 closed patterns ?
所谓闭项集,就是指一个项集X,它的直接超集的支持度计数都不等于它本身的支持度计数。如果闭项集同时是频繁的,也就是它的支持度大于等于最小支持度阈值,那它就称为闭频繁项集。例如,有交易数据库TID item1 abc 2 abcd 3 bce4 acde5 de因为项集{b,c}出现在TID为1,2,3的事务中,所以{b,c}的支持度计数为3。而{b,c}的转载 2015-04-11 08:48:30 · 6416 阅读 · 0 评论 -
Mondrian 使用教程
通过本教程,您将了解到什么是Mondiran,及如何将mondrian支持添加到您的Java Web项目中。在阅读本教程之前,您可能需要掌握以下概念:OLAP(联机分析处理On-Line Analytical Processing),您可以通过阅读ROLAP的概念.pptx来了解OLAPMDX多维表达式,您可以通过阅读MDX的基本语法及概念.pptx来了解MDX转载 2015-04-24 16:36:38 · 8160 阅读 · 0 评论 -
数据仓库
什么是数据仓库? --数据仓库是一个面向主题的,集成的,非易失的且随时间不断变化的数据集合,用来支持管理人员的决策。 下面我就从数据仓库的4个基本特性来说一下它与传统的OLTP(on-line transaction processing联机事务处理)数据库的区别 1.面向主题的 传统的OLTP数据库是面向应用进行数据组织的,而数转载 2015-07-01 15:51:22 · 2800 阅读 · 0 评论 -
Mondrian中聚合表的应用
Mondrian中聚合表的应用最近在项目中使用了开源OLAP引擎——Mondrian实现一个多维分析系统,在项目后期系统优化阶段使用了Mondrian中的聚合表机制。这里结合Mondrian官方资料和个人使用经验,对Mondrian中聚合表的概念、应用场景、如何使用、注意事项等内容做一个总结。1. OLAP相关概念Mondrian是一个基于Java语言的开源OLAP引擎,它通转载 2015-07-03 13:48:04 · 848 阅读 · 0 评论 -
如何构建用户画像
从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮转载 2015-07-13 17:12:42 · 2739 阅读 · 0 评论 -
加权平均法和移动加权法的例题
一、 加权平均法 概念:加权平均法亦称全月一次加权平均法,是指以当月全部进货数量加上月初存货数量作为权数,去除当月全部进货成本加上月初存货成本,计算出存货的加权平均单位成本,以此为基础计算当月发出存货的成本和期末存货的成本的一种方法。 加权平均法计算公式: 存货的加权平均单位成本=(月初结存货成本+本月购入存货成本)/(月初结存存货数量+本月购入存货数量) 月末库存存货成本=月转载 2015-09-25 16:39:11 · 37915 阅读 · 0 评论 -
距离和相似度度量
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, …转载 2016-06-03 08:29:59 · 798 阅读 · 0 评论