Spark重点难点知识总结(一)

本博客是个人在学习Spark过程中的一些总结,方便个人日后查阅,同时里面出现的一些关键字也可以作为后来一些读者学习的材料。若有问题,欢迎评论,一定知无不言。
1.Tuple:Tuple就是用来把几个数据放在一起的比较方便的方式,注意是“几个数据”,因此没有Tuple1这一说。
val scores=Array(Tuple2(1,100),Tuple2(2,90),Tuple2(3,100),Tuple2(2,90),Tuple2(3,100))  
val content=sc.parallelize(scores)  
val data=content.countByKey()
执行结果
data: scala.collection.Map[Int,Long] = Map(1 -> 1, 3 -> 2, 2 -> 2)
需要注意的是Tuple是Scala的特有包,因此如果用Java需要导包


2.saveAsText:文件输出的方法,可以将文件输出到HDFS,也可以输出到本地
sc.textFile(“text1.txt”).flatMap(_.split(“”)).map(word=>(word,1)).reduceByKey(_+_,1).saveAsTextFile(text2.txt) 
输入的文本文件text1
I ask her why not go
输出的结果text2为
(not,1)(ask,1)(I,1)(why,1)(go?,1)(her,1)


3.job:为了响应Spark的action,包含很多task的并行计算,可以认为是Spark RDD 里面的action,每个action的计算会生成一个job。用户提交的Job会提交给DAGScheduler,job会被分解成Stage和Task。每个Job是一个计算序列的最终结果,而这个序列中能够产生中间结果的计算就是一个stage。为了理解这一概念,我们举例说明。
1)将一个包含人名和地址的文件加载到RDD1中 
2)将一个包含人名和电话的文件加载到RDD2中
3)通过name来Join RDD1和RDD2,生成RDD3 
4)在RDD3上做Map,给每个人生成一个HTML展示卡作为RDD4 
5)将RDD4保存到文件 
6)在RDD1上做Map,从每个地址中提取邮编,结果生成RDD5 
7)在RDD5上做聚合,计算出每个邮编地区中生活的人数,结果生成RDD6 
8)   Collect RDD6,并且将这些统计结果输出到stdout

步骤(1、2、3、4、6、7)被Spark组织成stages,每个job则是一些stage序列的结果。对于一些简单的场景,一个job可以只有一个stage。但是对于数据重分区的需求(比如第三步中的join),或者任何破坏数据局域性的事件,通常会导致更多的stage。


4.job和stage的区别:通常action对应job,transformation对应stage。怎么样才算是一个stage呢?划分stage的依据是数据是否需要进行重组。action是一种操作级别,会生成      job,用通俗的话讲就是把RDD变成了非RDD(数据聚合的过程),RDD是只读的,换句话说我们想要打印(println)必须要经过action级别的操作。transformation也是一种操作级别,会生成stage,用通俗的话讲就是把一种形式的RDD变成另外一种形式的RDD,经过transformation级别的操作数据会进行重组。
  常见的stage有:
map,filter,flatMap,mapPartitions,mapPartitionsWithIndex,sample,union,intersection
distinct,groupByKey,reduceByKey,aggregateByKey,sortByKey,join,cogroup,cartesian
pipe,coalesce,repartition,repartitionAndSortWithinPartitions
常见的action有:
reduce,collect,count,first,take,takeSample,takeOrdered,saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,countByKey,foreach


5.task:被送到executor上的工作单元,task 是执行job 的逻辑单元 ,task和job的区别在于:job是关于整个输入数据和面向整个集群(还没有分机器)的概念,task一般是处理输入数据的子集,并且和集群中的具体一台机器相联系。在task 会在每个executor 中的cpu core 中执行。每个Stage里面Task的数量是由该Stage中最后一个RDD的Partition的数量所决定的。RDD在计算的时候,每个分区都会起一个task,所以rdd的分区数目决定了总的的task数目。申请的计算节点(Executor)数目和每个计算节点核数,决定了你同一时刻可以并行执行的task。比如的RDD有100个分区,那么计算的时候就会生成100个task,你的资源配置为10个计算节点,每个两2个核,同一时刻可以并行的task数目为20,计算这个RDD就需要5个轮次。如果计算资源不变,你有101个task的话,就需要6个轮次,在最后一轮中,只有一个task在执行,其余核都在空转。如果资源不变,你的RDD只有2个分区,那么同一时刻只有2个task运行,其余18个核空转,造成资源浪费。这就是在spark调优中,增大RDD分区数目,增大任务并行度的做法。Spark上分为2类task:shuffleMapTask和resultTask。


6.Driver:在Driver中,RDD首先交给DAGSchedule进行Stage的划分,然后底层的调度器TaskScheduler就与Executor进行交互,Driver和下图中4个Worker节点的Executor发指令,让它们在各自的线程池中运行Job,运行时Driver能获得Executor发指令,让它们在各自的线程池中运行Job,运行时Driver能获得Executor的具体运行资源,这样Driver与Executor之间进行通信,通过网络的方式,Driver把划分好的Task传送给Executor,Task就是我们的Spark程序的业务逻辑代码。



7.下划线_:Scala语言中下划线最常用的作用是在集合中使用
val newArry= (1 to 10).map(_*2)
打印结果
2 4 6 8 10


8.reduce:它是这样一个过程:每次迭代,将上一次的迭代结果与下一个元素一同执行一个二元的func函数。可以用这样一个形象化的式子来说明:
reduce(func, [1,2,3] ) = func( func(1, 2), 3)
var list=List(1,2,3,4,5,6,7)
list.reduce(_-_)
输出结果-26,1-2=-1,-1-3=-4,-4-4=-8,-8-5=-13,-13-6=-19,-19-7=-26



9.闭包:闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。
    /*1.more是一个自由变量,其值及类型是在运行的时候得以确定的  
      2.x是类型确定的,其值是在函数调用的时候被赋值的    
      def add(more:Int) = (x:Int) => x+ more  
      val add1 = add(1) 
      println(add1(100)) 运行结果:101
这样的函数称之为闭包:从开放到封闭的过程。已知一个函数f(x)=x+i,让你求f(3)= 3+i。分析:要得到最终的函数值,你必须知道i的值。 i称作开放项(“开”着的,对应闭包的“闭”),若上文中定义了“ int i = 1”,则可以得到f(3)= 3+1 =4,即函数值若想被创建必须捕获i的值,这一过程可以被理解为做对函数执行“关闭”操作,所以叫闭包。总之闭包就是(编译器创建的)执行一段代码所需要的上下文。


10.split:将一个字符串分割为子字符串,然后将结果作为字符串数组返回。
var words="123456123"   words.split("12")   res0: Array[String] = Array("", 3456, 3)

var words="123456123"   words.split("123")  res0: Array[String] = Array("", 456)

var words="123456123"   words.split("")   res0: Array[String] = Array(1, 2, 3, 4, 5, 6, 1, 2, 3)

var words="123456123"   words.split("10")  res0: Array[String] = Array(123456123)


11.filter:使用filter方法,你可以筛选出集合中你需要的元素,形成一个新的集合。
val x = List.range(1, 10)   
val evens = x.filterNot(_ % 2 == 0)
打印结果:evens: List[Int] = List(1, 3, 5, 7, 9)

 
12.collect:将RDD转成Scala数组,并返回。


13.Integer.parseInt:将整数的字符串,转化为整数
val b="123"
  
val a=Integer.parseInt(b)
  
println(a)//打印结果123


14.flatMap,Map和foreach:(1)Map:对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd,map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象
(2)flatMap函数则是两个操作的集合——正是“先映射后扁平化”,分为两阶段:  操作1:同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象。操作2:最后将所有对象合并为一个对象(3)foreach无返回值(准确说返回void)



15.RDD:Resilient Distributed Datasets,弹性分布式数据集。举例说明:如果你有一箱香蕉,让三个人拿回家吃完,这时候要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃。Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M < N),各自拿一块或多块数据慢慢玩,玩出结果了再收集在一起,这就算执行完了。那么Spark做了一项工作就是:凡是能够被我算的,都是要符合我的要求的,所以spark无论处理什么数据先整成一个拥有多个分块的数据集再说,这个数据集就叫RDD。
<think>好的,我现在需要处理用户关于知识图谱实战案例和教程的请求。首先,用户明确提到想寻找实际应用案例或教程,特别是包含示例和项目实现的资源。根据用户提供的引用内容,我需要整合这些信息,确保回答结构清晰,并生成相关问题。 首先,检查用户提供的引用。引用[1]提到了冲突检测和解决机制,这可能涉及知识融合的技术,但用户需要的是应用案例,这部分可能不太相关。引用[2]和引用[4]都提到了具体的实战案例,比如Neo4j的入门示例和红楼梦人物知识图谱的构建,这些应该是重点。引用[3]提到金融、医疗等领域的应用,可以列举这些行业的案例。引用[4]中的开发环境搭建可能对用户有帮助,但需要结合实战案例说明。 接下来,我需要组织回答结构。用户希望有教程和项目实现,所以分点列出教程资源和实战案例。每个部分需要包括项目名称、技术工具、核心内容和参考链接。例如,引用[2]的Neo4j示例和引用[4]的红楼梦项目都是很好的教程案例。同时,引用[3]中的行业应用可以作为实际应用案例来介绍。 然后,生成相关问题。用户的问题通常可能涉及学习路径、工具推荐、数据处理方法以及行业应用,因此需要设计相关问题,比如如何入门、推荐工具、处理非结构化数据的方法、金融领域的应用等。 需要注意,所有数学表达式要用$...$格式,但用户的问题主要涉及知识图谱,可能不涉及太多数学内容,但如果有的话需要正确使用。例如,在讲解算法时如果有公式,要正确应用LaTeX语法。不过当前问题可能不涉及数学公式,所以重点放在结构化和引用上。 最后,确保回答中的引用标识自然添加,例如在提到某个案例时在句末加上[^2]、[^3]等。同时,检查是否有遗漏的信息,比如是否有其他引用内容可以补充,但根据用户提供的引用,已经涵盖了教程和案例,所以应该足够。 总结回答结构:分为教程推荐和实战案例,每个部分列出具体项目,最后生成相关问题。确保引用正确,结构清晰,符合用户要求。</think>### 知识图谱实战案例与教程推荐 #### 、教程资源与项目实现 1. **Neo4j入门与基础示例** - **技术工具**: Neo4j图数据库 - **核心内容**: - 创建节点和关系:例如创建`Person`和`Movie`节点,并建立`ACTED_IN`关系,属性以键值对存储(如`{name: "Tom Hanks"}`)。 - 使用Cypher查询语言实现图遍历和关系分析。 - **参考实现**: ```cypher CREATE (:Person {name: "Alice"})-[:ACTED_IN]->(:Movie {title: "Matrix"}) ``` 通过类似代码可构建小型知识图谱并实现基础查询。 2. **红楼梦人物知识图谱构建** - **技术工具**: Python + Neo4j + 自然语言处理(NLP) - **核心内容**: - 从文本中抽取人物、地点、事件等实体。 - 构建实体间关系(如亲属、敌对、合作)。 - **实战难点**: 非结构化文本的实体消歧与关系抽取,需结合规则或深度学习模型[^4]。 3. **金融与法律领域知识图谱** - **应用场景**: - 金融领域:企业风险关联分析、反欺诈。 - 法律领域:案例判决辅助、法条关联推理。 - **技术方案**: 使用图算法(如社区发现、最短路径)支持复杂查询和推理。 --- #### 二、实际应用案例 1. **医疗知识图谱** - **功能**: 疾病-症状-药品关联查询、诊断辅助。 - **实现方法**: 整合医学文献和临床数据,构建多源异构数据的融合图谱。 2. **旅游推荐系统** - **功能**: 基于用户偏好和景点属性的个性化推荐。 - **技术细节**: 使用图嵌入(Graph Embedding)表示节点,通过相似度计算生成推荐。 3. **企业风险防控** - **案例**: 通过股权穿透、高管关联等关系挖掘潜在风险链。 - **工具**: 结合Neo4j和Spark进行大规模图计算[^3]。 --- #### 三、开发工具与学习路径 1. **工具链推荐** - **图数据库**: Neo4j(适合中小规模)、JanusGraph(分布式)。 - **NLP工具**: spaCy(实体抽取)、Stanford CoreNLP(关系提取)。 - **可视化**: Gephi、D3.js。 2. **学习路径建议** - 入门:掌握Neo4j和Cypher语法。 - 进阶:学习实体对齐、知识推理算法(如路径推理、规则引擎)。 - 实战:从单领域图谱(如电影、图书)扩展到多源数据融合[^4]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值