Spark Core2

Cache


RDDA ==> RDDB ==> RDDC 


对相同的RDD做action操作


cache和persist的区别 
cache lazy




val map = ..... //100M


10000tasks ==> ....M
100 executor
 
BroadcastJoin = MapJoin 
read-only
 
 
 
 
 
Lineage  血缘关系/血统
A =map=> B =filter=>C 
可以知道:一个RDD是如何从父RDD计算过来的 
 
 
Denpendence
Narrow  一个父RDD的partition至多被子RDD的某个partition使用一次
Wide 一个父RDD的partition会被子RDD的某个partition使用多次


Wide ==> Shuffle ==> 拆成2个stage
join/xxbykey




sc.textFile("file:///home/hadoop/data/ruozeinput.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_).collect
 
 
 RDD: 100
 
 Spark: partition == task
 coalesce(10) ==> 100 ==> 10
 
 repartition 10==>50 
 100w 10 10w
      50 2w
emp.txt 求comm为空的总数
 
 rdd.filter().map().filter().filter().coalesce(10).save....
 1个分区  100  10   8  6 
 100分区 ===> 100task ==> 100 file

 

看官网:Performance Impact    有shuffle的影响描述

 
 
 
 
 
 
 
04-08
### 关于 Intel Core 2 技术规格和细节 Intel Core 2 是英特尔推出的一系列高性能处理器,主要面向台式机、笔记本电脑以及服务器市场。这些处理器基于改进后的微架构设计,在性能和能效方面相比前代产品有显著提升。 #### 处理器基本信息 Intel Core 2 系列中的具体型号如 **Core 2 Quad Q8400** 提供了四核处理能力[^3]。该款处理器运行频率为 2.66 GHz,适用于多线程应用环境下的高效计算需求。此外,它支持超线程技术 (Hyper-Threading),这使得每一个物理核心能够模拟两个逻辑处理器单元工作,从而进一步增强系统的并发执行效率[^2]。 #### 超线程技术支持情况 对于采用 Hyper-Threading 的 Core 2 系列芯片来说,其实际表现会因应用场景而异。尽管这种技术可以在一定程度上增加每颗核心的工作负载承载量,但由于资源分配上的限制,增益效果通常是有限的。这意味着并非所有类型的软件都能从中获得相同的性能收益;只有那些经过优化可以充分利用多个CPU线程的应用程序才会看到明显的速度改善。 #### 性能测试数据 根据官方文档记录显示,在特定条件下进行过的一些基准测试表明,配备最新一代I/O虚拟化特性的解决方案可能会带来额外的优势[^1]。不过需要注意的是,这类优势更多体现在企业级环境中涉及到大量网络通信或者存储访问操作的时候,并不一定适合家用PC配置考量范围之内[^4]。 ```python # 示例 Python 代码展示如何获取 CPU 型号信息 import platform def get_cpu_info(): cpu_model = platform.processor() return f"The current system's processor model is {cpu_model}." print(get_cpu_info()) ``` 上述脚本可以帮助识别当前操作系统所使用的中央处理器类型及其名称字符串表示形式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值