
机器学习&数据分析
文章平均质量分 78
viewcode
first level:code
展开
-
与PCA相关的一些概念的集合
PCA主成分分析principle component analysis,数据预处理,对数据进行降维的重要手段。也就是分析、简化数据集。与多元统计分析理论比较密切相关。它的一些特征:是一个线性变换过程;转换到一个新的坐标系统,并且求出新的坐标系统的基。而且是一个正交变换,求出一组正交基。新的正交基,维度一般都比源数据的维度低。并且第一分量,正是数据在其投影上的方差最原创 2013-04-12 16:52:16 · 9842 阅读 · 1 评论 -
数据挖掘之相似性度量
机器学习或数据挖掘,就是在数据中寻求答案的算法。而寻求的答案就是训练完成的数据模型。大部分的数据建模方法都属于这两种:1) 数据汇总,对数据进行 简洁的近似描述如pagerank、聚类2) 特征抽取如频繁项集(同时频繁出现的元素子集)、相似项(共同元素比例较高的集合对)在机器学习或数据挖掘之前,还需要概率,或信息论的一原创 2013-06-08 18:10:11 · 21700 阅读 · 4 评论 -
对线性回归、逻辑回归、各种回归的概念学习
回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数,向量表示形原创 2013-04-17 16:33:12 · 282799 阅读 · 23 评论 -
在线机器学习算法及其伪代码
机器学习:需要从已知的数据 学习出需要的模型在线算法:需要及时处理收集的数据,并给出预测或建议结果,并更新模型通用的在线学习算法步骤如下:1. 收集和学习现有的数据2. 依据模型或规则,做出决策,给出结果3. 根据真实的结果,来训练和学习规则或模型常用的在线学习算法:Perceptron: 感知器PA: passive aggressive PerceptronPA-IPA-II...原创 2013-06-06 17:27:24 · 20558 阅读 · 1 评论 -
机器学习的概率与统计知识复习总结
机器学习中,很多算法的推导,需要概率和统计的很多知识。学校里学的时候,基本是囫囵吞枣,也忘得差不离了。现在复习一下,找一些概率与统计这门课的感觉。主要理解下什么是随机变量,与概率的关系,要样本干什么,等等。1. 什么是古典概率?有限个可能事件,且每个事件都是等可能概率事件。这个与抽样问题,经常联系起来2. 什么是几何分布、超几何分布 ?都是离散概率分布。是抽取问原创 2013-04-25 11:03:38 · 14307 阅读 · 1 评论 -
数据挖掘之聚类
聚类属于无监督学习。聚类的算法有很多种,其可分为基于划分、层次、密度、网格及模型的聚类方法。根据数据集的不同,需要采用不同的聚类算法和策略。1. 选择聚类算法,所面临的常见问题又哪些?1) 不同形状的数据集。不同形状的数据集,也需要采取不同的度量策略,或者不同的聚类算法。2)不同的数据次序。相同数据集,但数据输入次序不同,也会造成聚类的结果的不同。3)噪声。不同的算原创 2013-06-24 18:00:11 · 8116 阅读 · 2 评论 -
数据挖掘之大数据流处理
大数据流 即 实时收集的大量的数据。数据的流量大到无法实时将全部数据放入分析工具中处理。这里写写要解决的问题,及问题解决的思路,若是真的去实现,则需要考虑更多的问题、因素,需要查询更更详尽的资料。常见的数据流问题:1. 数据流的查询有哪些类型?有哪些处理策略?2. 对大数据流进行抽样,带来哪些问题?3. 如何有效地过滤某些数据?4. 对独立(不同)元素的原创 2013-06-17 10:12:11 · 17591 阅读 · 4 评论 -
统计自然语言处理的基础学习之一
1. NLP的一些基本概念和问题计算机如何处理自然语言?理性主义:其实就是纯粹使用规则的方法处理自然语言,并认为这些语言规则天生就存在人的基因中。在计算机中重现这些规则,就能学会人的语言处理能力。经验主义:认为人有感知和学习能力,通过概括、模式识别、联想等能力,来学习到自然语言的结构。哲学上的问题,类似于起源之类,就先别考虑的。统计方法在NLP中的地位是什么?原创 2013-09-04 08:32:40 · 8798 阅读 · 3 评论 -
大数据时代-散记
大数据时代: 生活、工作和思维的大变革一书写的相当不错,深入浅出,实例丰富。不过读的时候,常让人迷恋于各种小故事,而无法一下子把握整本书的想阐述的思想脉络。所以,自己列个提纲,记录一下书内的一些闪光点。第一部分:思维变革一共三章,这三章其实是一个整体,联系起来理解其实会更深刻。抽样、精确、因果三者之间的关系是什么?在解决经典统计问题,三者的作用是什么?而针对大数据状原创 2013-09-27 17:59:43 · 2547 阅读 · 0 评论 -
数据挖掘之频繁项集分析
频繁项集最经典和常用的应用就是超市的购物篮分析。每个购物篮里有很多商品,每个商品都是一项元素,每个购物篮都是一个集合,所有购物篮就形成了一个系列集合。分析哪些商品经常一起频繁出现在购物篮内,即找到频繁项集,然后,再分析其他商品与频繁项集的关系,即关联规则。1. 什么是频繁项?什么是频繁项集?与相似性分析有什么差别? 有什么应用?频繁项:在多个集合中,频繁出现的元素/项,就是频繁原创 2013-06-21 15:58:20 · 29226 阅读 · 2 评论 -
Hadoop之hive学习
1. hive是针对什么问题提出的?2. hive在数据类型上与普通的SQL有什么区别?3. hive在语法上与标准的SQL有什么区别?原创 2013-07-15 11:22:33 · 22906 阅读 · 0 评论 -
数据挖掘之链接分析学习
链接分析最重要的应用就是搜索引擎,另外,在论文检索、社交网络等方面也有应用。1. 有过哪些链接分析技术?2. PageRank技术的基本定义什么?3. PageRank有哪些改进?考虑了哪些因素?4. 有哪些链接作弊技术?如何消除这些作弊?5. 什么HITS算法?与PageRank的区别是什么?1. 有过哪些链接分析技术?1)倒排索引:第一代搜索技术,将原创 2013-06-26 14:05:32 · 4792 阅读 · 0 评论 -
人工神经网络ANN的一些概念的集合
神经网络,学生时,特意修了这门课,但完全找不到感觉,内容基本不理解,实验无头绪。经历了一些项目实践,现在回头再理解NN,一些概念自然就理解了。1. 单层神经网络:输入输出激活函数: 非线性,就是指这个激活函数。z是各输入数据与系数的加权和,a是输出。权值系数w,与输入仍然成线性关系多层神经网络表象的概念:输入层输出层隐藏层----权值:也原创 2013-04-11 17:41:29 · 14713 阅读 · 1 评论 -
hadoop0.23.7伪分布式 安装回顾
最近想学习下hadoop的使用,光看一些blog和指南对于我这个新手是摸不着头绪的,首先先把hadoop装起来再说。hadoop按照费我不少劲,原因就是hadoop的版本变化,0.20.*和0.23.*的版本配置和安装流程有比较大的不同。这里简要介绍下安装过程,并有一些已经写的很详细的blog和参考资料给出来,再就是介绍下安装过程中出现的问题。准备工作:1. 把虚拟原创 2013-05-19 12:04:44 · 2388 阅读 · 1 评论 -
机器学习中贝叶斯判决、概率分布、样本等概念间的关系
以下是在看模型识别,机器学习及数理统计时,对贝叶斯决策、概率分布、样本关系的总结,每想到一点就写下来,比较乱,这块需要反复学习、慢慢理解。1. 机器学习的一些概念:什么是机器学习?机器学习包含哪些基本要素?机器学习,就是由已知数据,训练出一个模型,形成一个假设的空间,在拿到新的数据后,能在假设空间搜索出一个合理的结果。搜索出合理的结果,只是评价机器学习的效果,模原创 2013-05-22 16:20:07 · 10094 阅读 · 0 评论 -
hadoop及hdfs一些初步的概念
hadoop安装成功后,对hadoop的很多概念还是一知半解,通过在线文档及《hadoop权威指南》可以有个初步的了解。1. hadoop解决了什么问题?对大量的数据进行存储与分析。方案:hdfs进行存储,而mapreduce进行分析,辅以其他的功能。设计中需要考虑的问题:大数据的读写问题,磁盘的IO的能力限制,促成了并行处理方式。硬件故障的可能性,也需要多个硬件的原创 2013-05-28 18:06:39 · 8271 阅读 · 0 评论 -
YARN:下一代MapReduce的架构
hadoop0.23版本中,出现了YARN,即MapReduce2.0版本。与原来mapreduce的明显的差别有:1. 将jobtracker的两个功能:资源管理和作业调度/监视,分割成几个单独的守护进程。这样就会有一个全局的资源管理器RM,及很多单独的应用程序控制点ApplicationMaster在每个节点上资源管理器、每个子节点、节点管理器,就形成了数据计算原创 2013-05-29 11:18:08 · 2322 阅读 · 0 评论 -
fuzzy logic模糊计算的原理
为什么需要 模糊计算? 首先,弄清楚 传统计算的方式:精确的数学语言,定量化分析,无法解决 概念模糊的问题,如大房子,小个子,小伙子等。原因就是 有一些概念模糊的问题,需要模糊计算来处理。模糊计算与普通计算的 明显不同之处在哪里?普通计算,一般是函数式,一一对应的关系。而模糊计算,一个变量,可以对应于多个状态值,当然,这些个状态与普通的函数表示也不是完全相同的,并不是完原创 2013-06-03 17:16:33 · 19274 阅读 · 0 评论 -
认识大数据分析
最近关注大数据,读了一些相关的书和文章,这里对自己在大数据概念上做一个总结。1. 大数据是泡沫吗?泡不泡沫有什么关系?大数据很热,热的让人都觉得有问题了。不过,大数据应该是有一定含金量的,否则,没人会炒作它,至于泡沫有多大,要真正了解大数据才知道。泡不泡沫其实跟大数据没关系,大数据就在那,泡沫就只是别人的炒作。泡沫破裂后,大数据可能会暂时被很多企业放在一边,但随着其原创 2013-06-04 17:40:36 · 4481 阅读 · 1 评论 -
Hadoop学习之HBase
1. HBase有哪些基本的特征?2. HBase相对于关系数据库能解决的问题是什么?3. HBase的数据模型是什么?如何表述?4. HBase是类似于google的bigtable的开源实现,拥有以下特征:1. 在HDFS之上2. 基于列存储的分布式数据库3. 用于实时地读、写大规模数据集HBase与关系数据的区别?关系数据库的缺憾:1.原创 2013-08-19 18:12:50 · 22547 阅读 · 1 评论 -
hadoop学习之ZooKeeper
1. 什么是ZooKeeper?ZooKeeper是一组工具,用来配置和支持分布式调度。它能处理分布式应用的“部分失败”问题。什么是部分失败?部分失败是分布式处理系统的固有特征,即发送者无法知道接收者是否收到消息,它出现的可能性有 网络传输出现问题、接收进程已经死掉等。2. ZooKeeper有什么特征?3. ZooKeeper有哪些需要配置原创 2013-08-20 18:11:38 · 21973 阅读 · 1 评论 -
SVM理解
SVM的文章介绍多如牛毛,很多介绍都非常详尽,而我却一点都不开窍,始终无法理解其中的奥秘。这次,我要用自己粗浅的语言,来撩开我与SVM之间的面纱。1. SVM是要解决什么问题?之前,冲上来就看SVM的应用,简介,最优化计算方法等。从没认真想过SVM要解决什么问题。下面一幅是常用的图,来解释SVM的需求。SVM最基本的应用是分类。 求解最优的分类面,然后用原创 2013-10-24 11:25:33 · 152845 阅读 · 10 评论