
Spark
文章平均质量分 55
leeshutao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Spark】计算LSH引入新jar包-LinkedInAttic ScANNS
目前是想在100万白用户的基础上,在2000万未知用户中,找到与100万用户最相近的一定量级用户当做白用户。原创 2022-07-27 17:01:51 · 735 阅读 · 0 评论 -
【Scala】dataframe部分列转为稀疏矩阵
dataframe部分列转为稀疏矩阵原创 2022-07-11 19:22:51 · 544 阅读 · 0 评论 -
【RDD】Pair RDD Functions
Spark用几个函数定义了PairRDDFunctions类来操作Pair RDD或RDD key-value pair。当需要应用像hash partition, set operations, joins等transformations时,Pair RDD就派上了用场。这段代码通过在RDD中的每个元素上按空格分割来创建pair RDD,并将其拉平,在RDD中的每个元素上形成一个单词字符串,最后为每个单词分配一个整数“1”,运行结果如下:sortByKey – Transformation r原创 2022-07-08 16:51:51 · 314 阅读 · 0 评论 -
【RDD】Transformations
RDD Transformations是Spark在RDD上执行的操作,它会产生一个或多个新的RDD。由于RDD在本质上是不可变的,Transformations总是创建新的RDD,而不更新现有的RDD,因此,这就创建了一个RDD lineage。 RDD谱系(RDD Lineage)也被称为RDD操作图或RDD依赖图。RDD Transformations是惰性操作,这意味着除非在Spark RDD上调用一个action,否则不会执行任何Transformation。由于RDD是不可变的,任何对它的转换都原创 2022-07-08 14:29:03 · 315 阅读 · 0 评论 -
【RDD】创建空RDD
输出:输出:输出:参考原创 2022-07-08 12:21:10 · 493 阅读 · 0 评论 -
【RDD】创建RDD及读取文件
Spark shell提供了SparkContext变量,使用创建RDD。使用scala时,从中获取对象,并使用来创建rdd,这个函数还有另一个signature,它附加了一个整数参数来指定分区的数量。分区是Apache Spark中并行性的基本单位。Apache Spark中的RDD是分区的集合。(Partitions are basic units of parallelism in Apache Spark. RDDs in Apache Spark are a collection of pa原创 2022-07-08 11:54:59 · 2382 阅读 · 0 评论 -
【Scala】MinHash for Jaccard Distance
来源:LSHMinHashimport org.apache.spark.ml.feature.MinHashLSHimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.colval dfA = spark.createDataFrame(Seq( (0, Vectors.sparse(6, Seq((0,原创 2022-01-13 16:37:22 · 966 阅读 · 0 评论 -
【Scala】值类型和条件表达式
1. Scala的值类型有7种:(无引用类型)Byte Char Short Int Long Float Double2. Scala 条件表达式scala>val x = 3x:Int = 3scala>val y = if(x 1)1 else -1y:Int = 1scala>println (y)1scala>val z = if(x 1)1 else "error" //混合类型表达式z:Any = 1 //返回的是sc原创 2022-05-30 11:04:26 · 126 阅读 · 0 评论 -
【Pyspark】提取Hive数据报错 java.lang.AssertionError: assertion failed: No plan for HiveTableRelation
一般来说这种错误的产生是因为在创建SparkSession对象的时候HiveContext没有被启用。创建SparkSession对象记得启用HiveContext。原创 2022-06-02 00:25:26 · 1248 阅读 · 1 评论 -
【Scala】数据集成(join)
数据集成是将多文件或者多数据库中的数据进行合并,然后存放在一个一致的数据存储中 。 数据集成一般通过 join、 union 或 merge 等关键字把两个(或多个)数据集连接在一起, SparkSQL (包括DataFrame)有join方法, Pandas下有merge方法。 数据集成往往需要耗费很多资源 ,尤其是大数据间的集成涉及 shuffle 过程, 有时需要牵涉多个节点,所以 除了数据一致性外,性能问题常常不请自来,需要我们特别留心。 传统数据库 一般是在单机上采用 hash jo原创 2022-06-01 23:30:42 · 700 阅读 · 0 评论 -
【Scala】SparkContext与SparkSession的区别与联系
在 2.0之前的 Spark版本中, SparkShell会自动创建一个 SparkContext对象sc。 SparkContext与驱动程序(Driver Program)和集群管理器(Cluster Manager)间的关系如图所示。 从图中可以看到, SparkContext起中介的作用,通过它来使用Spark其他的功能。每一个 JVM 都有一个对应的 SparkContext,Driver Program 通过 SparkContext 连接到集群管理器来实现对集群中任务的控制。S原创 2022-06-01 22:42:09 · 785 阅读 · 0 评论 -
【Pyspark】在jupyter中运行pyspark,且为yarn-client模式
1. 预备操作已经有的环境包括:spark 2.4.5 集群 anaconda 虚拟环境python3.7 (由于集群spark环境为2.4.5,python版本必须<3.8) 配置好$SPARK_HOME、$JAVA_HOME 环境变量2. 本次操作命令行操作:# 查看并进入相应虚拟环境conda info --envsconda deactivateconda activate caret# 进入相应虚拟环境后,安装包conda search pyspark原创 2022-05-26 01:23:36 · 1407 阅读 · 0 评论 -
【Scala】SparseMatrix存储格式CSC理解
参考文献:Data Types - RDD-based API - Spark 3.2.1 Documentation python - sparse Matrix/ CSC Matrix in pyspark - Stack Overflow 稀疏矩阵的存储格式CSC理解。(Local Matrix)_时间_实践的博客-优快云博客_csc格式 Spark 3.2.1 ScalaDoc - org.apache.spark.mllib.linalg.SparseMatrix想要表示矩阵1原创 2022-05-23 12:19:33 · 373 阅读 · 0 评论 -
pandas-dataframe与spark-dataframe操作的区别
转载自Spark SQL 及其DataFrame的基本操作 - hhhhhh1122 - 博客园item pands pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism,不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理..转载 2022-05-16 18:01:01 · 582 阅读 · 0 评论 -
$HADOOP_PREFIX/sbin/start-dfs.sh 启动失败,卡在node2: starting datanode, logging to ……
这个问题困扰了很久,首先今天细细看了一下操作细节:Hadoop + Hive + Spark 完整安装攻略但是一直卡在这里:#启动 Hdfs $HADOOP_PREFIX/sbin/start-dfs.sh如上图:会在node2: starting datanode, logging to /usr/local/hadoop/logs/hadoop-root-datano...原创 2019-05-09 08:43:36 · 4364 阅读 · 1 评论 -
Spark安装成功首个RDD操作【yeah!】
rdd = sc.parallelize([1,2,3,4,5])rdd.map(lambda x:x+1).reduce(lambda x,y:x+y)结果显示:20。即,先给每个加1,再累加。如果是:rdd = sc.parallelize([1,2,3,4,5])rdd.map(lambda x:x+1)#PythonRDD[1] at RDD at PythonRDD...原创 2019-04-14 16:35:01 · 377 阅读 · 0 评论 -
MAC配置Spark避坑
根据这个课程进行配置https://www.bilibili.com/video/av27076260/?p=10依次安装配置了vagrant virtualbox java12(对,问题就出在这里,按照课程讲的安装java没有成功,就自己安装了最新的java12) spark启动pyspark一直报错:Exception: Java gateway process exi...原创 2019-04-14 14:51:32 · 731 阅读 · 0 评论