
spark
YiqiangXu
把时间投入到最有价值的地方
展开
-
spark学习(不公开)
spark源码编译:sbt编译配置文件:spark1.0.0/project/SparkBuild.scalameaven配置文件:spark1.0.0/pom.xmlspark-1.0.0/assembly/target/scala-2.1.0spark-assembly-1.0.0-hadoop2.2.0.jarbin/spark-shell --master sp原创 2016-10-10 21:59:00 · 192 阅读 · 0 评论 -
spark-shell 统计hbase数据条数
sc.stopsc.stopimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.client.HBaseAdminimport org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}import or原创 2016-09-29 13:51:36 · 1336 阅读 · 0 评论 -
spark-shell 统计hbase数据条目数
sc.stopsc.stopimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.client.HBaseAdminimport org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}import or原创 2016-09-29 13:54:44 · 2315 阅读 · 0 评论 -
Intellij IDEA搭建Spark开发环境并运行
在IntellIJ IDEA中搭建好spark开发环境,并在IntelliJ IDEA中运行local模式,这是学习spark开发和调试spark程序,以及分析spark源码的绝佳方式.基本流程:1.安装JDK,注意版本要和spark兼容2.安装scala,注意版本要和spark兼容3.安装IntelliJ IDEA 并安装scala插件4.新建scala工程,制定JDK,和s原创 2017-08-02 11:34:59 · 1225 阅读 · 0 评论 -
Spark SQL, DataFrames and Datasets Guide
概述:Spark SQL是用于结构化数据处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关正在执行的数据和计算结构的更多信息。 在内部,Spark SQL使用这些额外的信息执行额外的优化。 有几种与Spark SQL进行交互的方法,包括SQL和Dataset API。 当计算结果时,使用相同的执行引擎,独立于您用来表达计算的API翻译 2017-07-25 10:19:42 · 626 阅读 · 0 评论 -
对spark mlib的Pipeline的理解
参考博客:sparkmlib使用Pipeline实现简单的逻辑回归Pipeline详解及Spark MLlib使用原创 2017-08-02 16:20:12 · 467 阅读 · 0 评论