
大数据
可乐司机
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop安装
推荐一个Hadoop安装介绍比较完整的网址: 厦门大学数据库实验室:http://dblab.xmu.edu.cn/blog/1258-2/原创 2017-02-28 20:08:12 · 631 阅读 · 0 评论 -
Linux 上安装Eclipse并配置Hadoop
前提条件:已经安装Hadoop 1. 下载Eclipse安装包(我这里下载的是eclipse-java-neon-2-linux-gtk-x86_64.tar.gz) 2. 加压 tar zxvf eclipse-java-neon-2-linux-gtk-x86_64.tar.gz 3. 进入到eclipse的目录,使用./eclipse安装 4. 下载插件hadoop-ecl原创 2017-03-08 18:49:59 · 1993 阅读 · 1 评论 -
HBase
Hadoop实验——HBase的安装和实验原创 2017-03-22 16:47:41 · 293 阅读 · 0 评论 -
大数据处理技术——基础介绍
1. 5个V (1) Volume 高容量 (2)Velocity 高速度 (3)Variety 多样性 (4)Veracity 真实性 (5)Value 价值性 2. 工作 (1)存储 (2)管理 (3)分析 (这里主要讲这个) 3.大数据分析 通过对大量数据进行分析,挖掘发现其中的模式和模型。 (1)Valid:对新数据有效 (2)Useful:能在一定程度上方便对...原创 2019-02-19 11:11:36 · 744 阅读 · 0 评论 -
数据挖掘——数据
1. 数据属性 数据对象是通过属性来描述的。 (1)名词型属性:各个属性值之间没有距离关系。 a. 二元型属性:只有两个取值的名词型属性;两个取值同等重要的是对称型(如男和女),不同等重要的为不对称(如阳性和阴性)。 b. 顺序型属性:取值有排序效果,如小中大。 (2)数值型属性:数值型属性一般都要归一化,以减少量纲带来的影响 (3)离散性属性 VS 连续型属性 2. 数据基本统计 ...原创 2019-02-28 21:17:25 · 350 阅读 · 0 评论 -
数据挖掘——数据预处理
1.多维度衡量数据质量 正确性、完整性、一致性、时效性、可信度、可解释性 2. 数据清洗 补全缺失数据:专家补充完整、自动填充(UNKNOWN、均值、众数、根据其他属性取样本均值等 平滑噪声数据(随机错误、技术限制等):装箱、回归、人机结合、聚类识别并移除异常数据 识别移除异常数据:利用属性元数据(如身份证号码的限制等) 解决数据不一致性、缺省值 3. 数据集成 合并多个/种...原创 2019-02-28 22:11:06 · 363 阅读 · 0 评论 -
数据挖掘——频繁模式、关联规则
1. 频繁模式概念 在数据集中经常出现(出现的频率不小于minsup,minsup是人为设定的,如为50%)的模式(可以是一个子序列、子结构、子集等),可以应用于销售分析、网页日志分析、DNA序列分析。 2. 关联规则概念 当X出现时,Y也会出现。X->Y 通常有两个数据,一个是XY一起出现的频率,另一个是当X出现时Y出现的条件概率。 3. 频繁模式算法 (1)Apriori算法:...原创 2019-03-10 17:44:13 · 1345 阅读 · 0 评论