
spark
某某某的账号
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记
Spark学习笔记Spark简介spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、Gra转载 2015-11-09 21:10:35 · 833 阅读 · 0 评论 -
Python科学计算的瑞士军刀——Anaconda 安装与配置
IntroducePython是一种强大的编程语言,其提供了很多用于科学计算的模块,常见的包括numpy、scipy和matplotlib。要利用Python进行科学计算,就需要一一安装所需的模块,而这些模块可能又依赖于其它的软件包或库,因而安装和使用起来相对麻烦。幸好有人专门在做这一类事情,将科学计算所需要的模块都编译好,然后打包以发行版的形式供用户使用,Anaconda就是其中一个常用的科转载 2015-12-29 09:10:10 · 574 阅读 · 0 评论 -
Spark 随机森林算法原理、源码分析及案例实战
1.Spark 随机森林算法原理是什么?2.随机森林算法源码做了哪些分析?3.随机森林算法本文例举了什么案例?本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络 IO 操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然转载 2016-01-13 10:43:00 · 6607 阅读 · 1 评论