
大数据-应用-数据挖掘
文章平均质量分 72
freshghost1234
这个作者很懒,什么都没留下…
展开
-
《数据挖掘:概念与技术》-第1章:引论
数据挖掘就是发现知识,使用是人,也可以是机器。 发现知识过程 1、数据清理 2、数据集约 3、数据选择 4、数据变化 5、数据挖掘 6、模式评估 7、知识展示原创 2017-03-06 14:40:47 · 624 阅读 · 0 评论 -
机器学习之数学规划
前言过了6年重新捡起数学,一方面因为要学习机器学习,另一方面想继续提高学历。怎样才能最快的拣回知识点呢,最有效的方法就是查看2017年数学二考试大纲,主要分为3科: 1. 高等数学 2. 线性代数 3. 概率论与数理统计高等数学一、函数、极限、连续考纲如下: 考试内容 函数的概念及表示法 函数的有界性、单调性、周期性和奇偶性 复合函数、反函数、分段函数和隐函数 基本初等函数的性质及其图形原创 2017-03-06 19:48:55 · 531 阅读 · 0 评论 -
机器学习-什么是机器学习
现在流行的计算学习的框架,不过spark ml和 mlib这两个不同可以通过源码中的包信息可以得知mlib:RDD-based machine learning APIs 基于RDD机器学习的API ml: DataFrame-based machine learning APIs to let users quickly assemble and configure practical原创 2017-03-07 21:00:26 · 598 阅读 · 1 评论 -
机器学习之高等数学函数
一 集合集合定义:具有某种特定性质的事物的总体。 注:现实生活中,任何事物都可以“聚”合在一起,在逻辑上形成集合,可以有特质,也可以没有特质。 谈到集合,想到计算机的数据结构集合collection(详见scala和java的collection),数学中的的集合更抽象。表示符号:A={a1,a2,a3,*,an} ,这是结构表示发 也可以:M={x| f(x)},结果表示法。 特殊表示原创 2017-03-06 20:04:47 · 976 阅读 · 0 评论 -
高等数学
一 集合集合定义:建立在西方形式逻辑的基础上,形式逻辑的是一种思维的方式。 具有某种特定性质的事物的总体。 注:现实生活中,任何事物都可以“聚”合在一起,在逻辑上形成集合,可以有特质,也可以没有特质。 谈到集合,想到计算机的数据结构集合collection(详见scala和java的collection),数学中的的集合更抽象。表示符号:A={a1,a2,a3,*,an} ,这是结构表示发原创 2017-03-29 16:46:43 · 1451 阅读 · 0 评论 -
概率论和数理统计
随机变量 X vs 随机事件 e->x e的概率分布函数:P(x)/F(x)(P(x)为离散,F(x)为连续)期望,其实就是均值 算法平均 : 表示原创 2017-08-10 21:05:03 · 376 阅读 · 0 评论 -
《数据挖掘:概念与技术》-第3章:数据预处理
预处理目的:数据要得以应用,必须是高质量的。高质量包括以下6点: 1. 准确性 2. 完整性 3. 一致性 4. 时效性 5. 可信性 6. 可解释性数据处理的步骤:数据清理数据集成数据规约数据变换数据清理填充缺失值、光滑噪音、识别离散群、纠正数据一致性。最优的方法:回归、贝叶斯原创 2017-02-21 21:45:16 · 955 阅读 · 0 评论 -
spark +hive+hbase+hadoop
前言:hive:数据仓库 hbase:分布式nosql数据库 haoop:分布式文件系统 spark:分布式内存计算系统 这个四个结合(当然少不了zookeeper)简直完美。当然有完美就有不和谐, 各组件缺点如下: 1. hive的底层计算是mapreduce,计算太慢 2. hbase 是一个nosql数据库,对sql用户不友好。 3. spark计算结果是内存中,最终是要落地的原创 2017-12-29 20:33:07 · 612 阅读 · 0 评论