
数据挖掘
文章平均质量分 94
第2梦
知乎文章:https://www.zhihu.com/people/yi-xian-feng-19/posts
展开
-
大数据——初识Hadoop
Hadoop主要包含如下核心组件:1. HDFS。它是hadoop使用的分布式文件系统,提供了hadoop运算过程中的数据存储、数据备份、数据错误校验等功能。 2. MapReduce。 它是hadoop的并行计算框架。基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。3. HBSE。HBse是建立在Hadoop HDFS之上的可靠的原创 2016-10-11 11:26:43 · 3864 阅读 · 2 评论 -
Windows下用IDEA进行Spark开发
当集群搭建好了,接下来就是将自己的代码写好,扔到集群上进行跑了。安装软件1、JDK 2、Intellj IDEA 3、xshell这三部安装过程这里不介绍,下一步下一步即可。4、Intellj IDEA 安装scala插件 首次使用会出现安装插件提示,如果没安装,就在File->setting->plugins,输入scala.所需包各种包最好保持与集群版本一致。1、java sdk原创 2016-11-01 22:03:50 · 4848 阅读 · 1 评论 -
大数据—Spark简介
1、Spark是什么 Spark是基于内存计算的大数据并行计算框架,是一个用来实现快速而通用的集群计算平台。它替代了广泛使用的MapReduce计算模型,并且支持交互式查询和流处理等其他高效计算模型。2、Spark与Hadoop的关系Spark是一个计算框架,它只是MapReduce的替代方案;而Hadoop是一个生态系统,包含计算框架MapReduce和分布式文件系统HDFS,还有Hba原创 2016-11-01 20:30:44 · 2847 阅读 · 0 评论 -
稀疏矩阵存储格式总结
稀疏矩阵是指矩阵中的元素大部分是0的矩阵,事实上,实际问题中大规模矩阵基本上都是稀疏矩阵,很多稀疏度在90%甚至99%以上。因此我们需要有高效的稀疏矩阵存储格式。本文总结几种典型的格式:COO,CSR,DIA,ELL,HYB。转载 2017-01-05 15:33:21 · 1095 阅读 · 0 评论 -
特征工程概述
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。原创 2017-02-15 00:15:36 · 649 阅读 · 0 评论