
spark
文章平均质量分 53
绛门人
静水深流
展开
-
在IDEA中新建的maven项目,无法创建.scala文件
转:http://blog.youkuaiyun.com/program_anywhere/article/details/53728186学习路上的各种坑: 1、在new对应的栏目中没有Scala class选项 2、解决 这是因为maven的配置问题 file->settings->Build,Excution->Build Tools->Maven now do: 去掉选转载 2017-04-18 11:07:11 · 5586 阅读 · 0 评论 -
根据指定的学科, 取出点击量前三的
import java.net.URLimport org.apache.spark.{SparkConf, SparkContext}/** * 根据指定的学科, 取出点击量前三的 * Created by root on 2016/5/16. */object AdvUrlCount { def main(args: Array[String]) { //转载 2017-06-01 21:25:42 · 276 阅读 · 0 评论 -
Linux中nc命令的安装使用
在Linux中有一个级强大的网络工具netcat,在默认情况下面都是没有安装的,现在介绍一下安装过程 其实安装很简单切换到root用户:yum install -y nc测试使用 在一个终端上 输入 nc -lk 9999 输入数据。。。新开启一个终端 输入 nc ip:9999 就可以看到上一个终端输入的数据原创 2017-06-06 18:27:49 · 26663 阅读 · 3 评论 -
Spark-Streaming的最简单使用
org.apache.spark spark-streaming_2.10 ${spark.version} org.apache.spark spark-streaming-kafka_2.10 1.6.1原创 2017-06-06 18:42:03 · 1130 阅读 · 0 评论 -
Spark中分区使用
import java.net.URLimport org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}import scala.collection.mutable/** * Created by root on 2016/5/18. */object UrlCountPartiti原创 2017-06-02 12:00:50 · 445 阅读 · 0 评论 -
Spark-Streaming中累加
import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}/** * Created by root on 2016/5/21. */object StateFulWordCount {转载 2017-06-06 21:12:08 · 2293 阅读 · 0 评论 -
Spark-Streaming 使用flume的push方式进行流式处理
import org.apache.spark.SparkConfimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by ZX on 2015/6/22. */object Flum原创 2017-06-06 22:03:27 · 503 阅读 · 0 评论 -
Spark-stream 主动poll数据
import java.net.InetSocketAddressimport org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.spark.streaming.{原创 2017-06-06 22:12:16 · 388 阅读 · 0 评论 -
Spark中自定义排序
import org.apache.spark.{SparkConf, SparkContext}object OrderContext { implicit val girlOrdering = new Ordering[Girl] { override def compare(x: Girl, y: Girl): Int = { if(x.faceValue >原创 2017-06-02 14:35:45 · 353 阅读 · 0 评论 -
IP转为十进制
import java.io.{BufferedReader, FileInputStream, InputStreamReader}import scala.collection.mutable.ArrayBufferobject IPLocationDemo { def ip2Long(ip: String): Long = { val fragments = ip.sp转载 2017-06-02 15:34:29 · 1956 阅读 · 0 评论 -
Spark中广播的使用
import org.apache.spark.{SparkConf, SparkContext}/** * Created by root on 2016/5/18. */object IPLocation { def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum原创 2017-06-02 16:18:31 · 2039 阅读 · 0 评论 -
Spark-Streaming与Kafka整合
package cn.itcast.spark.day5import org.apache.spark.storage.StorageLevelimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spa转载 2017-06-07 11:26:29 · 534 阅读 · 0 评论 -
Spark从数据库读数据操作
package cn.itcast.spark.day3import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}/** * Created by ZX on 2016/4/12. */object Jdbc转载 2017-06-03 15:04:08 · 484 阅读 · 0 评论 -
Spark-窗口函数
package cn.itcast.spark.day5import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}/** * Created by ZX on 2016/4/19. */object WindowOpts转载 2017-06-08 00:27:23 · 701 阅读 · 0 评论 -
spark中executor执行Driver发送的task,放入线程池中执行原理
import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class ThreadPool { public static void main(String[] args) throws Exception { ExecutorService pool = Exec原创 2017-07-03 17:12:49 · 2361 阅读 · 0 评论 -
local host is: "node5/172.16.100.115"; destination host is: "node5":9000;
17/08/09 15:13:32 INFO spark.SparkContext: Created broadcast 0 from textFile at WordCount.scala:15Exception in thread "main" java.io.IOException: Failed on local exception: com.google.protobuf.Inval原创 2017-08-09 15:39:26 · 2578 阅读 · 0 评论 -
Spark API 之 reduce、reduceByKey 、 mapvalues
转:http://blog.youkuaiyun.com/guotong1988/article/details/50555185reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。val c = sc.paral转载 2017-06-01 20:58:40 · 1055 阅读 · 1 评论 -
Spark的Master,Worker调试
start-all.sh -> start-master.sh -> start-slaves.sh//Master启动的脚本start-master.sh -> spark-daemon.sh start org.apache.spark.deploy.master.Master//Worer的启动过程salves.sh -> 通过读取slaves 通过ssh的原创 2017-06-06 15:03:02 · 989 阅读 · 0 评论 -
Spark启动命令
转:http://blog.youkuaiyun.com/wind520/article/details/46822969转载 2017-05-03 17:52:51 · 2735 阅读 · 0 评论 -
Spark RDD概念学习系列之RDD的转换图解
转:http://www.cnblogs.com/zlslch/p/5723764.html 参考转载 2017-06-05 08:21:49 · 551 阅读 · 0 评论 -
Spark的Debug调试
Spark调试:本地模式调试集群模式调试第一种:val conf = new SparkConf().setAppName("WC").setMaster("local[2]")第二种import org.apache.spark.{SparkConf, SparkContext}/** * Created by root on 2016/5/1原创 2017-06-05 13:53:31 · 3705 阅读 · 0 评论 -
Spark中mapPartitions使用
转:http://blog.youkuaiyun.com/lsshlsw/article/details/48627737与map方法类似,map是对rdd中的每一个元素进行操作,而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个转载 2017-06-05 14:38:17 · 25733 阅读 · 0 评论 -
解决SecureCRT下spark-shell中scala无法删除问题
转:http://blog.youkuaiyun.com/huanbia/article/details/51318278问题描述当使用SecureCRT来打开Spark-shell的时候,有时会出现如下问题,当输错的时候想要按Backspace(退格键)或“Delete(删除键)”的时候,无法删除前面删除的内容。 解决方法问题主要出现在我们的SecureC转载 2017-06-01 10:36:34 · 626 阅读 · 0 评论 -
Spark中CheckPoint操作
参考:http://www.tuicool.com/articles/bQVRryr/** * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint * directory set with `SparkContext#setCheckpointDir` and all原创 2017-06-05 19:41:22 · 3720 阅读 · 0 评论 -
Spark SQL入门
在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口,在spark-1.5.2中已经内置了一个sqlContext1.在本地创建一个文件,有三列,分别是id、name、age,用空格分隔,然后上传到hdfs上hdfs dfs -put person.txt / 2.在spark shell执行下面命令,读取数据,将每一行的数据使用列分隔符分割原创 2017-06-05 21:12:46 · 467 阅读 · 0 评论 -
Spark-编程执行Spark SQL查询
首先在maven项目的pom.xml中添加Spark SQL的依赖。dependency> groupId>org.apache.sparkgroupId> artifactId>spark-sql_2.10artifactId> version>1.5.2version>dependency>package cn.itcast.spark.sql原创 2017-06-05 21:25:28 · 1147 阅读 · 0 评论 -
spark-通过StructType直接指定Schema
package cn.itcast.spark.sqlimport org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.sql.types._import org.apache.spark.{SparkContext, SparkConf}/** * Created by ZX on 2015/12/11.原创 2017-06-05 21:27:39 · 29350 阅读 · 4 评论 -
Spark-sql结果保存指定位置
//1.读取数据,将每一行的数据使用列分隔符分割val lineRDD = sc.textFile("hdfs://node1.itcast.cn:9000/person.txt", 1).map(_.split(" "))//2.定义case class(相当于表的schema)case class Person(id:Int, name:String, age:Int)原创 2017-06-06 08:18:13 · 8112 阅读 · 0 评论 -
Spark-sql与hive的结合环境配置
转:zx老师########################################alter database hive character set latin1;ALTER TABLE hive.* DEFAULT CHARACTER SET latin1;########################################1.安装hiveC原创 2017-06-06 10:59:55 · 1824 阅读 · 0 评论 -
spark设置本地运行模式
import org.apache.spark.{SparkConf, SparkContext}/** * Created by root on 2016/5/16. */object ForeachDemo { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Foreach原创 2017-06-01 17:32:55 · 4355 阅读 · 0 评论 -
RDD算子
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.htmlmap是对每个元素操作, mapPartitions是对其中的每个partition操作val rdd = sc.parallelize(List(1,2,3,4,5),2)----------------------------------------转载 2017-06-01 17:36:31 · 344 阅读 · 0 评论 -
spark对url的提取与统计
import java.net.URLimport org.apache.spark.{SparkConf, SparkContext}/** * 取出学科点击前三的 * Created by root on 2016/5/16. */object UrlCount { def main(args: Array[String]) { val conf = new转载 2017-06-01 20:21:15 · 2499 阅读 · 0 评论 -
Spark、hadoop源码编译
CentOS6.7-64bit编译hadoop2.6.41.下载maven(apache-maven-3.3.3-bin.tar.gz)http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz2.安装maventar -zxvf apache-maven-3转载 2017-06-06 12:31:24 · 628 阅读 · 0 评论 -
Geotrellis系列文章
http://www.cnblogs.com/shoufengwei/p/5619419.htmlhttps://docs.geotrellis.io/en/latest/tutorials/quickstart.html原创 2018-03-13 22:30:40 · 1340 阅读 · 0 评论