
spark
文章平均质量分 59
kaiseu
把你的心给我一小部分,把我的整个拿去...
展开
-
hive演示实验--销售数据
2:销售数据//qryTheDate.txt文件定义了日期的分类,将每天分别赋予所属的月份、星期、季度等属性//日期,年月,年,月,日,周几,第几周,季度,旬、半月数据文件所在目录:数据格式://qrytblStock.txt文件定义了订单表头//订单号,交易位置,交易日期/qryStockDetail.txt文件定义了订单明细//订原创 2015-01-28 21:09:06 · 1680 阅读 · 0 评论 -
Spark在shuffle数据的时候遇到的问题:java.io.IOException: Connection reset by peer
java.io.IOException: Connection reset by peer at sun.nio.ch.FileDispatcherImpl.read0(Native Method) at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39) at sun.nio.转载 2016-08-02 23:09:44 · 13174 阅读 · 0 评论 -
Hive 安装
1:安装计划hadoop1: 121.248.50.155 (hadoop2.2.0 namenode)hadoop2: 121.248.48.101 (hive0.11.0 client)hadoop3: 121.248.52.30 (MySQL server + hive metastore service)hadoop2.2.0的安装目录/app/hadoop/原创 2015-01-27 20:44:51 · 877 阅读 · 0 评论 -
AMPCamp2015之SparkStreaming wordCount
1 之前已经搭建好hadoop和spark集群2 练习使用sparkStreaming对文本单词计数2.1 首先启动集群这是hadoop集群监控页面:这是spark监控页面:2.2 在hdfs上创建文件夹/test/tmp,用于存放待计数的文件创建后的hdfs系统如下:2.3 在客户端/app/hadoop/下有一个待计数原创 2015-06-06 11:02:11 · 1272 阅读 · 0 评论 -
Spark1.3.1集群部署
1 java安装2 ssh无密码登陆3 spark安装包解压4 spark配置文件配置文件 conf/slaves:增加3个节点文件 conf/spark-env.sh:拷贝安装目录到hadoop2,hadoop3:启动集群:浏览器访问:5 客户端安装原创 2015-06-01 18:57:11 · 1414 阅读 · 0 评论 -
CentOS安装hadoop2.6.0
1 下载hadoop2.6.0版本,解压到目录/app/hadoop,重命名文件夹名为hadoop2602 文件配置修改环境变量:修改hadoop变量的值:修改slaves文件root@kaiseu-ubuntu:/app/hadoop/hadoop260/etc/hadoop# vi slaves原创 2015-05-29 19:06:44 · 1287 阅读 · 0 评论 -
Spark1.3.1 Standalone 基于文件系统的 HA 部署
基于文件系统的 HAspark.deploy.recoveryMode设成 FILESYSTEMspark.deploy.recoveryDirectory Spark保存恢复状态的目录Spark-env.sh 里对 SPARK_DAEMON_JAVA_OPTS 设置export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.rec原创 2015-06-01 19:32:13 · 1528 阅读 · 0 评论 -
Spark-submit提交任务到集群
1 IDEA 打包示例代码参考AMPCamp2015之SparkSQL,开发环境使用idea。首先需要将程序打包成jar选择project structure --》artifacts ,由于集群已经有了运行依赖的jar包,打包时可以将这些jar包排除出去,以减小打包后的jar包的大小。点击ok,然后选择build --》build artifacts,原创 2015-06-19 16:01:26 · 73674 阅读 · 0 评论 -
上传本地文件到HDFS
1.上传文件切换到hadoop 安装目录,启动hadoop,然后输入命令:bin/hdfs dfs -mkdir /alidata,在hdfs上创建alidata文件夹浏览器查看hdfs:上传文件到alidata文件夹:命令:bin/hdfs dfs -put /home/kaiseu/TianChi /alidata/查看结果:原创 2015-04-05 09:32:43 · 49966 阅读 · 2 评论 -
hive演示实验--sogou日志数据
1:日志处理演示数据来源:http://download.labs.sogou.com/dl/q.html 完整版(2GB):gz格式//SogouQ1.txt、SogouQ2.txt、SogouQ3.txt分别是用head -n 或者tail -n 从SogouQ数据日志文件中截取查看日志文件格式:[hadoop@hadoop2 hadoop220]$ bin/hdfs df原创 2015-01-27 22:07:53 · 2384 阅读 · 0 评论 -
Spark实例演示之SparkPi
1.贴上源码def main(args: Array[String]) {val conf = new SparkConf().setAppName("Spark Pi").setMaster("spark://hadoop1:7077").setJars(List("/home/kaiseu/MyProject/IdeaProjects/week2/out/artifacts/week2原创 2015-04-04 08:52:24 · 8300 阅读 · 0 评论 -
java.lang.RuntimeException: Error caching map.xml
MR job failed with below error:java.lang.RuntimeException: Error caching map.xml: org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /tmp/hive/root/c6d2b6f4-3b63-43c6-b9a5-522c3421b5原创 2016-11-30 17:58:03 · 5030 阅读 · 1 评论