
spark
文章平均质量分 55
撸依天
自由|共享
展开
-
scala:java.nio.charset.MalformedInputException
写个scala简单读取文件的例子package com.spark.scalaimport scala.io.Sourceobject FileOps { def main(args: Array[String]) { //val file = Source.fromFile("C:\\Users\\XXXXX\\Desktop\\sobaby.txt")原创 2015-02-04 20:00:38 · 2165 阅读 · 1 评论 -
Spark on Yarn 环境搭建(CDH5.3)
前提条件:1. 以现线上集群为模拟环境,搭建一套CDH5.3的hadoop集群 (http://blog.youkuaiyun.com/korder/article/details/46909253) 2. 执行用户 (此处以root为执行用户,真实环境另做处理)部署:1. 启动hadoop集群,如:38节点安装的主namenode [root@JXQ-23原创 2015-08-11 16:27:05 · 1771 阅读 · 0 评论 -
Spark将HDFS数据导入到HBase
本程序运行环境:Spark+HDFS+HBase+Yarn hadoop(HDFS+Yarn)集群搭建,参考:http://blog.youkuaiyun.com/korder/article/details/46909253 Spark on Yarn,参考:http://blog.youkuaiyun.com/korder/article/details/47422345 HBase集群搭建,参考:hbase表结原创 2015-08-11 16:16:03 · 2373 阅读 · 0 评论 -
Hbase0.98.6-CDH5.3集群搭建
CHD5.3搭建参考:以下俩种方式安装Hbase集群: 一:tar包安装 1 . Hbase安装在39/40/41/42/43/44/45/46/47节点上,所以上传hbase压缩包hbase-0.98.6-cdh5.3.0.tar.gz到39节点,配置好39再同步其他节点 2 . hbase-site.xml内容修改如下:<configuration>原创 2015-08-11 17:02:18 · 1765 阅读 · 0 评论 -
Spark 1.X 大数据平台V2(第四周作业)
1 . 假如数据源来自网络,数据默认会在几个node的内存中缓存住。• A. 1• B. 2• C. 3选B 当数据源来自于网络时(例如通过Kafka、Flume、sockets等等),默认的持久化策略是将数据保存在两台机器上,这也是为了容错性而设计的。2 . Spark Streaming默认持久化的级别是什么?• A. 内存+序列化• B. 内存+非序列化原创 2015-07-29 14:18:07 · 516 阅读 · 0 评论 -
Spark 1.X 大数据平台V2(第二周作业)
1 . 请说明application与job之间的关系? 一个Application和一个SparkContext相关联,每个Application中可以有一个或多个Job,可以并行或者串行运行Job。 Spark中的一个Action可以触发一个Job的运行。在Job里面又包含了多个Stage,Stage是以Shuffle进行划分的。在Stage中又包含了多个Task,多个Task构成原创 2015-06-08 14:59:54 · 606 阅读 · 0 评论 -
Spark 1.X 大数据平台V2(第三周作业)
上传一张或者多张你成功运行Spark on YARN的截图。最好是监控页面的截图 建立一个JobServer工程,写一个查找输入字母中出现次数最多的那个字母的程序。 如’a a a b b c’ 需要返回 a原创 2015-06-08 17:29:59 · 647 阅读 · 0 评论 -
Spark 1.X 大数据平台V2(第一周作业)
RDD执行transformation和执行action的区别是什么? 1、transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD 2、action是得到一个值,或者一个结果(直接将RDDcache到内存中)。所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,原创 2015-06-08 14:54:45 · 997 阅读 · 0 评论 -
Intellij idea使用Maven管理Scala工程
安装idea后、运行./idea.sh打开 选择Plugins、关键字scala搜索,点击『Install JetBrains plugin』按钮,安装scala插件 Maven安装 参考http://blog.youkuaiyun.com/korder/article/details/46229711 Maven设置: 设置Maven home directory 为maven安装路径原创 2015-05-29 14:07:19 · 2507 阅读 · 0 评论 -
spark 根据关键字查询日志信息(关键字下行10行)
业务需要根据关键字查询HDFS日志信息,并且需要查看关键字Key之下10行package com.spark.scalaimport org.apache.spark.{SparkContext,SparkConf}class mylog{}object mylog{ def main(args: Array[String]) { //没有数据源,退出原创 2015-06-16 12:13:59 · 1239 阅读 · 0 评论 -
ubuntu maven 安装配置
要使用maven,需要先安装好jdk1、官网下载maven 3.3.3 http://maven.apache.org/download.cgi 2、打开终端、解压下载包(存放/usr/lib/java目录下) tar zxvf apache-maven-3.3.3-bin.tar.gz 3、添加配置环境变量 vim ~/.bashrcexport M2_HOME=/usr/lib/jav原创 2015-05-29 12:21:09 · 627 阅读 · 0 评论 -
容器使用超过了虚拟内存的限制大小,该容器被杀死,导致作业提交失败
is running beyond virtual memory limits. Current usage: 53.7 MB of 1 GB physical memory used; 4.4 GB of 2.1 GB virtual memory used. Killing container. 容器使用超过了虚拟内存的限制大小,该容器被杀死,导致作业提交失败physical mem原创 2015-05-04 18:05:27 · 2732 阅读 · 1 评论 -
IntelliJ IDEA 删除项目Project
IntelliJ IDEA 删除项目,先关闭项目,然后界面上出现项目例表,鼠标移到你想要删除的项目上(不要点击,一点就打开了),然后按DELETE键转载 2015-03-10 10:56:39 · 10338 阅读 · 1 评论 -
Scala 分布式计算数据与加减乘除 相运算
先看一个程序:def main(args: Array[String]): Unit = { val str = "spark,hadoop,scala,java" val st = str.split(",") val map = new HashMap[String,Int]() var ps = "%" var sum = 17原创 2015-09-25 09:53:18 · 3367 阅读 · 0 评论