
spark
文章平均质量分 67
曾牛
成功的三个关键,坚持,坚持,再坚持
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive on Spark配置
1. Hive引擎简介 Hive引擎包括:默认MR、tez、spark Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。 Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。 2. Hive on Spark配置 1)兼容性说明 注意:官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive原创 2022-04-04 17:12:15 · 3745 阅读 · 0 评论 -
eclipse安装Scala IDE插件后An internal error occurred during: "Computing additional info"报错解决
eclipse安装scala插件后报错,信息如下: 一自动补齐就弹出 An internal error occurred during: "Computing additional info"报错 具体来说是写代码时,自动补齐,然后弹窗报如下错误 An internal error occurred during: “Computing additional info”. org.ecli...原创 2019-11-26 21:50:36 · 1160 阅读 · 0 评论 -
java.lang.IllegalArgumentException: requirement failed: Column features must be of type org.apache.s
lr训练模型报错: val model1 = lr.fit(training) java.lang.IllegalArgumentException: requirement failed: Column features must be of type org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 but was actually org.apa...原创 2019-04-24 11:44:49 · 2888 阅读 · 0 评论 -
spark-core学习笔记
1.spark和MapReduce比较: 1)MR是批量计算框架,Spark-Core也是批量计算框架 2)Spark相比MR速度快,MR作为一个job,在中间环节中结果是落地的(会经过磁盘交换),Spark计算过程中数据流转都是在内存的(减少了对HDFS的依赖) 3)MR:多进程模型(缺点:每个任务启动时间长,所以不适合于低延迟的任务 优点:资源隔离,稳定性高,开发...原创 2019-03-07 21:43:55 · 222 阅读 · 0 评论 -
RDD的五大特性
原创 2019-03-07 20:58:59 · 183 阅读 · 0 评论 -
spark-streaming运行wordcount命令
spark-submit --class org.apache.spark.examples.streaming.HdfsWordCount \ --master yarn-cluster \ /usr/local/src/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar\ hdfs:...原创 2019-03-07 16:43:40 · 811 阅读 · 0 评论 -
scala和spark实践wordcount
1.scala实现: 数据The_Man_of_Property.txt: 实现代码: 结果: 2.spark实现: 数据: 同上 代码: 结果:原创 2019-03-06 16:46:39 · 229 阅读 · 0 评论 -
spark实践cf(协同过滤)算法
import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer import scala.math._ object cf { def main(args: Array[String]): Unit = { val conf = new SparkConf()...原创 2019-03-06 15:38:28 · 279 阅读 · 0 评论 -
spark-sql性能优化
原创 2019-03-08 15:00:14 · 323 阅读 · 0 评论 -
spark实现将相同用户(key)所有item列表聚合
数据:用户id,itemid,分数 代码: import org.apache.spark.{SparkConf, SparkContext} object userwatchlist { def main(args: Array[String]): Unit = { val conf = new SparkConf() //conf.setMaster("local...原创 2019-03-08 14:42:15 · 2282 阅读 · 0 评论 -
spark-sql相关实践
给定数据: orders表: product表: priors表: 实现以下业务需求: 1.统计product被购买的数量: val productCnt = priors.groupBy("product_id").count() 2..统计product 被reordered的数量(再次购买) product_id做group by(聚合),统计一下sum(re...原创 2019-03-08 14:34:52 · 452 阅读 · 0 评论 -
Spark全分布模式的安装和配置
Spark的安装模式一般分为三种:1.伪分布模式:即在一个节点上模拟一个分布式环境,master和worker共用一个节点,这种模式一般用于开发和测试Spark程序;2.全分布模式:即真正的集群模式,master和worker部署在不同的节点之上,一般至少需要3个节点(1个master和2个worker),这种模式一般用于实际的生产环境;3.HA集群模式:即高可用集群模式,一般至少需要4台机器(1...原创 2018-10-09 00:47:32 · 1125 阅读 · 0 评论 -
spark报错集锦
在虚拟机运行spark-shell命令报错: 问题1:启动hadoop和spark后在终端输入spark-shell命令报错如下: 解决办法: 1.环境 将hive中的hive-site.xml拷贝到spark下的conf目录下 将/usr/local/src/apache-hive-3.1.0-bin/lib下的mysql-connector-java-5.1.46-bin.jar...原创 2018-11-09 11:22:59 · 510 阅读 · 0 评论