
Spark
文章平均质量分 73
yijichangkong
这个作者很懒,什么都没留下…
展开
-
spark中多表连接优化实例
环境信息: hive1.2.1 spark1.6.1 hadoop2.6.0-cdh5.4.2 memory:1918752, vCores:506表结构: 表名称 表容量 主键 hive存储类型 temp_01_pc_order 5G PC_ORDER_ID RCFile TST_ORDER_RISK 9.4G 非 PC_ORDER_ID RC原创 2016-07-13 17:26:45 · 9047 阅读 · 0 评论 -
spark sql运行出错(Container killed on request. Exit code is 143)
错误描述:SQL三张表做join运行出错;用hive执行报错如下: Diagnostic Messages for this Task: Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usag原创 2016-05-06 16:05:16 · 56998 阅读 · 0 评论 -
使用IPython探索和可视化数据
推荐使用 Anaconda.它是一个预编译的科学Python套件。(或者Enthougt)下载 Anaconda-2.3.0-Linux-x86_64.sh 并copy到/usr/local/apps目录下,运行 bash Anaconda-2.3.0-Linux-x86_64.sh完成安装。更新环境变量:在/home/hadoop/.bashrc中添加export PATH=/usr/loca原创 2015-09-27 21:34:20 · 2639 阅读 · 1 评论 -
Spark开发环境及源码阅读环境配置
源码阅读环境配置:参考如下博文:Windows + IDEA + SBT 打造Spark源码阅读环境上面是在windows环境的配置,比较耗时,而且由于网络原因,很有可能出错;在linux环境下就比较简单了:进入spark源代码目录下,运行以下命令:./sbt/sbt gen-idea会自动生成idea项目文件;然后进入idea,点击File->Open project即可。使用intelli原创 2015-09-03 19:28:46 · 2135 阅读 · 0 评论 -
Spark SQL and DataFrame Guide(1.4.1)——之Data Sources
Spark SQL通过DataFrame接口支持多种数据源操作。一个DataFrame可以作为正常的RDD操作,也可以被注册为临时表。翻译 2015-07-30 20:15:17 · 3385 阅读 · 0 评论 -
Spark SQL and DataFrame Guide(1.4.1)——之DataFrames
Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这种编程抽象,同时也可以作为分布式SQL查询引擎使用。DataFramesDataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,不过在底层做了很多优化;我们可以使用结构化数据文件、Hive tables,外部数据库或者RDDS来构造DataFrames翻译 2015-07-29 16:02:52 · 4660 阅读 · 0 评论 -
在spark上运行独立程序(Self-Contained Applications)
在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。运行独立程序(SimpleApp.py): 首先编写程序(这里用Pytho的API): from pyspark import SparkContextlogFile = "README.md" #注意这里的文件是在hdfs中的sc = SparkContext("local","Simp原创 2015-07-05 16:27:57 · 2294 阅读 · 2 评论 -
spark-shell初体验
1、复制文件至HDFS:hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /userhadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user/hadoophadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -copyFromL原创 2015-05-02 13:50:45 · 2105 阅读 · 0 评论 -
在hadoop2.4集群环境下安装spark
1、下载spark最新版:http://spark.apache.org/downloads.html下载对应的Scala版本:http://www.scala-lang.org/download/原创 2015-05-01 15:57:37 · 3523 阅读 · 2 评论