preferredDuringSchedulingIgnoredDuringExecution 的分配机制做详细说明 V1.0

最新推荐文章于 2025-12-12 12:47:56 发布

原创最新推荐文章于 2025-12-12 12:47:56 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#kubernetes

K8s 专栏收录该内容

506 篇文章

订阅专栏

目录标题

preferredDuringSchedulingIgnoredDuringExecution 的分配机制详细说明，以及什么情况下会分配到同一个节点。
- 1. 机制简述
- 2. 典型分配到同一节点的场景
- 3. 代码层面分配机制
- - 3.1 调度流程概览
  - 3.2 关键源码分析
  - - 1. 亲和性打分插件
    - 2. 节点选择
    - 3. 软约束失效场景
- 4. 设计文档要点
- 5. 总结
Why
- 1. 你期望的效果
- 2. 实际调度为什么会“撞车”？
- - 可能原因一：label 匹配范围不够细
  - 可能原因二：调度时机和资源竞争
  - 可能原因三：StatefulSet/Operator 没有为主实例单独加更细粒度的反亲和性
- 3. 如何避免主实例“撞车”？
- - 方案一：为主实例加更细粒度的 label 和反亲和性
  - 方案二：用 required 反亲和性（硬约束）
  - 方案三：分片 label 更细
- 4. 结论
打分的机制 V1.0
- 1. 相关源码位置
- 2. 打分机制核心流程
- - 1. 预选（Filter）
  - 2. 优选（Score）
  - - 关键代码片段（K8s 1.28+，伪代码简化）：
  - 3. 节点选择
- 3. 典型场景举例
- 4. 设计文档说明
- 5. 总结
打分的机制 V2.0
- 1. 软亲和/反亲和的打分机制总览
- 2. 代码实现细节
- - 2.1 主要源码位置
  - 2.2 打分流程
  - - 步骤一：遍历所有候选节点
    - 步骤二：遍历所有 preferred 规则
    - 步骤三：分数归一化
    - 步骤四：节点选择
- 3. 详细举例
- 4. 代码片段（K8s 1.28+）
- 5. 软约束失效场景
- 6. 总结
打分的机制 V3.0
- 1. 你的配置分析
- 2. 打分机制和资源无关
- - 资源（CPU、内存、存储）相关的打分
- 3. 你的配置调度流程
- 4. 资源打分插件举例
- 5. 总结
打分的机制 V4.0
- 1. 配置含义
- 2. 调度打分机制（源码级）
- - 2.1 相关源码位置
  - 2.2 打分流程
  - - 伪代码简化（K8s 1.24）：
  - 2.3 归一化
- 3. 实际调度效果
- 4. 资源打分与亲和性打分的关系
- 5. 代码片段（K8s 1.24）
- 6. 总结

preferredDuringSchedulingIgnoredDuringExecution 的分配机制详细说明，以及什么情况下会分配到同一个节点。

好的，下面结合你给出的 Kubernetes Pod Affinity/Anti-Affinity 设计文档和 Kubernetes 源码，对 preferredDuringSchedulingIgnoredDuringExecution 的分配机制做详细说明，并解释什么情况下会分配到同一个节点。

1. 机制简述

preferredDuringSchedulingIgnoredDuringExecution 是 Pod 亲和性/反亲和性的“软约束”。
它的语义是：调度器会尽量满足，但如果无法满足，Pod 依然会被调度。

2. 典型分配到同一节点的场景

所有节点都不满足 preferred 规则：比如副本数大于节点数，或所有节点都已有目标 label 的 Pod。
资源/硬约束优先级更高：如资源不足、污点容忍、节点选择器等硬约束导致可选节点有限，软约束被忽略。
软约束权重低：如果 preferred 规则的 weight 较低，其他打分项（如资源均衡）分数更高，调度器可能选择不满足 preferred 的节点。

3. 代码层面分配机制

3.1 调度流程概览

Kubernetes 调度器的调度流程分为两步：

预选（PreFilter/Filter）：先用硬约束（如 requiredDuringSchedulingIgnoredDuringExecution、资源、污点等）过滤节点。
优选（Score/Prioritize）：对剩下的节点打分，preferredDuringSchedulingIgnoredDuringExecution 影响分数，分数高的节点更可能被选中。

3.2 关键源码分析

1. 亲和性打分插件

Kubernetes 1.18+，调度器插件化，亲和性相关插件为 InterPodAffinity，代码在 pkg/scheduler/framework/plugins/interpodaffinity/interpod_affinity.go。

Score 阶段会遍历所有 preferred 规则，对每个节点打分。
满足 preferred 规则的节点分数更高，不满足的分数低。

核心代码片段（伪代码简化）：

// plugins/interpodaffinity/interpod_affinity.go
func (pl *InterPodAffinity) Score(ctx context.Context, state *framework.CycleState, pod *v1.Pod, nodeName string) (int64, *framework.Status) {
    // 计算 preferredDuringSchedulingIgnoredDuringExecution 的分数
    score := 0
    for _, term := range pod.Spec.Affinity.PodAntiAffinity.PreferredDuringSchedulingIgnoredDuringExecution {
        if nodeSatisfiesTerm(node, term) {
            score += term.Weight
        }
    }
    return score, nil
}

2. 节点选择

调度器会选择分数最高的节点。如果多个节点分数相同，则随机选择一个。

3. 软约束失效场景

如果所有节点都不满足 preferred 规则（分数都为 0），调度器仍会从这些节点中随机选择一个。
如果硬约束（如 required、资源、污点等）过滤后只剩下不满足 preferred 的节点，调度器只能从这些节点中选。

4. 设计文档要点

设计文档明确指出：

If no node satisfies the preferredDuringSchedulingIgnoredDuringExecution terms, the scheduler will still schedule the pod, but will try to pick a node that satisfies as many preferred terms as possible.

即：软约束永远不会阻止 Pod 被调度，只是影响节点优先级。

5. 总结

preferredDuringSchedulingIgnoredDuringExecution 只影响节点打分，不影响节点过滤。
只要没有节点满足软约束，Pod 依然会被调度到某个节点上（可能和已有 Pod 分配到同一节点）。
代码层面，相关逻辑在调度器的 Score 阶段（InterPodAffinity 插件），通过加权打分实现。
资源紧张、节点数少于副本数、硬约束优先级高等场景下，软约束可能被“忽略”。

如需具体源码行号或更详细的调度器插件实现细节，可以进一步说明你的需求！

Why

你的场景是：3个分片、6个redis实例（即每个分片1主1从），有15个节点，发现有2个主分布在了同一个节点上，即使你用了如下软反亲和性配置：

podAntiAffinity:
  preferredDuringSchedulingIgnoredDuringExecution:
    - podAffinityTerm:
        labelSelector:
          matchLabels:
            AppName: redis-xxxx
            redis.resource.type: server
        topologyKey: kubernetes.io/hostname
      weight: 100

1. 你期望的效果

你希望每个主实例分布在不同节点上，最大化高可用。

2. 实际调度为什么会“撞车”？

可能原因一：label 匹配范围不够细

你的 podAntiAffinity 只区分 AppName: redis-xxxx 和 redis.resource.type: server。
如果所有主实例 label 都一样（比如都是 AppName: redis-xxxx），调度器只会保证所有 redis-server 实例尽量分散，不会区分主从或分片。
这样就可能出现多个主实例 label 一样，被分配到同一节点。

可能原因二：调度时机和资源竞争

如果你是批量创建所有实例，调度器在分配第一个主实例时，节点上还没有其他主实例，分数一样，可能随机分配。
如果有资源、污点、节点亲和等其他约束，部分节点不可用，也可能导致“撞车”。

可能原因三：StatefulSet/Operator 没有为主实例单独加更细粒度的反亲和性

很多 Redis Operator/Helm Chart 默认只加了“所有 redis-server 尽量分散”，没有区分主从/分片。

3. 如何避免主实例“撞车”？

方案一：为主实例加更细粒度的 label 和反亲和性

比如主实例加 role: master，反亲和性只针对 role: master：

podAntiAffinity:
  preferredDuringSchedulingIgnoredDuringExecution:
    - podAffinityTerm:
        labelSelector:
          matchLabels:
            AppName: redis-xxxx
            redis.resource.type: server
            role: master
        topologyKey: kubernetes.io/hostname
      weight: 100

这样调度器会优先保证所有主实例分散，而不是主从混合分散。

方案二：用 required 反亲和性（硬约束）

如果你能接受主实例调度不出去（比如节点资源不足时），可以用 required：

podAntiAffinity:
  requiredDuringSchedulingIgnoredDuringExecution:
    - podAffinityTerm:
        labelSelector:
          matchLabels:
            AppName: redis-xxxx
            redis.resource.type: server
            role: master
        topologyKey: kubernetes.io/hostname

这样绝不会有两个主在同一节点，但资源不足时会卡住。

方案三：分片 label 更细

如果你希望每个分片的主都分散，可以给每个分片主加唯一 label，比如 shard: 0/1/2，并用反亲和性避免同 shard 主分布在同节点。

4. 结论

你的软反亲和性只保证“所有 redis-server 尽量分散”，不会保证主实例分散，主从/分片 label 不细会导致主实例“撞车”。
想要主实例绝对分散，需加更细粒度的 label 和反亲和性，或用 required 反亲和性。
软反亲和性永远只是“尽量”，调度器在资源紧张、节点不可用、批量调度等情况下，还是可能“撞车”。

建议：

检查你的主实例 label 是否唯一，反亲和性是否只针对主。
如果用 Helm/Operator 部署，查下 values.yaml 是否支持主从/分片级别的反亲和性配置。
生产高可用建议主实例用 required 反亲和性，副本用 preferred。

如需具体 YAML 或 Operator/Helm Chart 配置建议，欢迎贴出你的实际配置！

打分的机制 V1.0

下面从 Kubernetes 源码角度，详细分析 preferredDuringSchedulingIgnoredDuringExecution（软亲和/反亲和）在调度器中的打分机制：

1. 相关源码位置

调度器插件：pkg/scheduler/framework/plugins/interpodaffinity/interpod_affinity.go
主入口：Score 方法
调度器主循环：pkg/scheduler/framework/framework.go 及 pkg/scheduler/core/generic_scheduler.go

2. 打分机制核心流程

1. 预选（Filter）

先用所有硬约束（如 requiredDuringSchedulingIgnoredDuringExecution、资源、污点等）过滤节点。
软约束（preferred）不会在此阶段生效。

2. 优选（Score）

对所有通过预选的节点，遍历每个 preferred 规则，计算每个节点的得分。
每条 preferred 规则有一个 weight，节点满足该规则则加上对应分数。
多条 preferred 规则分数累加，最终得分越高，节点越优先。

关键代码片段（K8s 1.28+，伪代码简化）：

// plugins/interpodaffinity/interpod_affinity.go
func (pl *InterPodAffinity) Score(ctx context.Context, state *framework.CycleState, pod *v1.Pod, nodeName string) (int64, *framework.Status) {
    // 取出 pod 的 preferred 亲和/反亲和规则
    var score int64 = 0
    for _, term := range pod.Spec.Affinity.PodAntiAffinity.PreferredDuringSchedulingIgnoredDuringExecution {
        if nodeSatisfiesTerm(node, term) {
            score += int64(term.Weight) // 满足规则加权重分
        }
    }
    // 亲和性同理
    for _, term := range pod.Spec.Affinity.PodAffinity.PreferredDuringSchedulingIgnoredDuringExecution {
        if nodeSatisfiesTerm(node, term) {
            score += int64(term.Weight)
        }
    }
    return score, nil
}

nodeSatisfiesTerm 判断节点是否满足该 preferred 规则（如同节点上是否有指定 label 的 Pod）。
所有 preferred 规则的分数累加，作为该节点的最终分数。

3. 节点选择

调度器会选择分数最高的节点。如果有多个节点分数相同，则随机选择一个。
如果所有节点都不满足 preferred 规则（分数都为 0），调度器会在这些节点中随机分配。

3. 典型场景举例

所有节点都不满足 preferred：所有节点分数为 0，调度器随机分配。
部分节点满足 preferred：满足的节点分数高，更优先被选中。
weight 权重影响：weight 越高，规则影响力越大。

4. 设计文档说明

设计文档明确指出：

The scheduler will try to place the pod on a node that satisfies as many preferred terms as possible, but if no such node exists, it will still schedule the pod.

5. 总结

preferredDuringSchedulingIgnoredDuringExecution 只影响节点打分，不影响节点过滤。
打分机制是“每满足一条 preferred 规则，加上对应权重分”，分数高的节点优先。
如果所有节点都不满足软约束，调度器会在这些节点中随机分配。
相关实现集中在 InterPodAffinity 插件的 Score 方法。

如需具体源码行号或更详细的实现细节，可以进一步指定 Kubernetes 版本或具体调度器插件！

打分的机制 V2.0

非常好的问题！下面我将结合 Kubernetes 源码和调度原理，用更细致的方式讲解 preferredDuringSchedulingIgnoredDuringExecution 的打分机制，帮助你彻底理解其实现细节。

1. 软亲和/反亲和的打分机制总览

软约束（preferred）不会影响节点的可选性，只影响节点的优先级（分数）。
每条 preferred 规则有一个 weight（1~100），节点每满足一条规则就加上对应分数。
多条规则分数累加，最终分数越高的节点越优先被选中。
如果所有节点分数都为 0，则调度器会在这些节点中随机选择。

2. 代码实现细节

2.1 主要源码位置

插件入口：pkg/scheduler/framework/plugins/interpodaffinity/interpod_affinity.go
关键方法：Score 和 NormalizeScore

2.2 打分流程

步骤一：遍历所有候选节点

调度器会对每个通过 Filter 阶段的节点调用 Score 方法。

步骤二：遍历所有 preferred 规则

对于每个节点，遍历 Pod 的所有 preferredDuringSchedulingIgnoredDuringExecution 规则：

for _, term := range pod.Spec.Affinity.PodAntiAffinity.PreferredDuringSchedulingIgnoredDuringExecution {
    if nodeSatisfiesTerm(node, term) {
        score += int64(term.Weight)
    }
}

nodeSatisfiesTerm(node, term) 判断该节点是否满足该 preferred 规则（比如节点上没有同 label 的 Pod）。
满足一条规则就加上该规则的权重分。

步骤三：分数归一化

所有节点的分数会被归一化到 0~100 之间（NormalizeScore），以便和其他调度插件的分数合并。

// 伪代码
maxScore := max(allNodeScores)
minScore := min(allNodeScores)
for i, score := range allNodeScores {
    allNodeScores[i] = (score - minScore) * 100 / (maxScore - minScore)
}

步骤四：节点选择

调度器选择分数最高的节点。
如果有多个节点分数相同，则随机选择一个。

3. 详细举例

假设有 3 个节点，Pod 有如下 preferred 反亲和规则：

podAntiAffinity:
  preferredDuringSchedulingIgnoredDuringExecution:
    - weight: 50
      podAffinityTerm:
        labelSelector:
          matchLabels:
            app: my-app
        topologyKey: "kubernetes.io/hostname"
    - weight: 30
      podAffinityTerm:
        labelSelector:
          matchLabels:
            env: prod
        topologyKey: "kubernetes.io/hostname"

节点 A 满足两条规则，得分 80
节点 B 满足一条规则，得分 50
节点 C 一条都不满足，得分 0

归一化后，A 得 100 分，B 得 62 分，C 得 0 分。调度器会优先选 A。

4. 代码片段（K8s 1.28+）

Score 入口
pkg/scheduler/framework/plugins/interpodaffinity/interpod_affinity.go

func (pl *InterPodAffinity) Score(ctx context.Context, state *framework.CycleState, pod *v1.Pod, nodeName string) (int64, *framework.Status) {
    // 省略状态获取
    var score int64 = 0
    for _, term := range pod.Spec.Affinity.PodAntiAffinity.PreferredDuringSchedulingIgnoredDuringExecution {
        if nodeSatisfiesTerm(node, term) {
            score += int64(term.Weight)
        }
    }
    // 亲和性同理
    for _, term := range pod.Spec.Affinity.PodAffinity.PreferredDuringSchedulingIgnoredDuringExecution {
        if nodeSatisfiesTerm(node, term) {
            score += int64(term.Weight)
        }
    }
    return score, nil
}

分数归一化
pkg/scheduler/framework/plugins/defaultpreemption/defaultpreemption.go
pkg/scheduler/framework/plugins/helper.go

5. 软约束失效场景

如果所有节点都不满足 preferred 规则（分数都为 0），调度器会在这些节点中随机分配。
如果硬约束（如 required、资源、污点等）过滤后只剩下不满足 preferred 的节点，调度器只能从这些节点中选。

6. 总结

preferred 规则本质是“加分项”，不是“过滤项”。
weight 越高，影响力越大。
归一化后分数高的节点优先。
所有节点分数为 0 时，调度器随机分配。

如需进一步源码行号、调度日志分析或某一版本的详细实现，可以继续追问！

打分的机制 V3.0

你的理解有一点偏差，下面我来详细澄清：

1. 你的配置分析

你写的是：

podAntiAffinity:
  requiredDuringSchedulingIgnoredDuringExecution:
  - labelSelector:
      matchLabels:
        AppName: redis-24c34512
        redis.resource.type: server
    topologyKey: kubernetes.io/hostname

这段配置不是软约束，而是硬约束（required）。

requiredDuringSchedulingIgnoredDuringExecution 表示：调度时，必须满足反亲和性条件，否则 Pod 不会被调度到该节点。
你的配置要求：不能和 label 为 AppName=redis-24c34512 且 redis.resource.type=server 的 Pod 调度到同一个节点（hostname）上。

2. 打分机制和资源无关

requiredDuringSchedulingIgnoredDuringExecution 只做节点过滤，不参与打分。
只有 preferredDuringSchedulingIgnoredDuringExecution（软约束）才会参与打分，影响节点优先级。

资源（CPU、内存、存储）相关的打分

节点的 CPU、内存、存储等资源，确实会影响调度，但它们属于资源调度插件（如 NodeResourcesFit、LeastAllocated、BalancedAllocation 等）的打分范畴。
亲和性/反亲和性打分只和 Pod label、topologyKey 等有关，和节点资源无关。

3. 你的配置调度流程

Filter 阶段
- 先用 required 反亲和性过滤所有节点。
- 只要节点上有 label 匹配的 Pod，该节点就会被排除。
Score 阶段
- 你的配置没有 preferred 软约束，所以亲和性插件不会给节点打分。
- 其他插件（如资源相关）会对剩下的节点打分，分数高的节点优先。

4. 资源打分插件举例

NodeResourcesFit：节点资源是否能满足 Pod 需求（硬约束，Filter 阶段）。
NodeResourcesLeastAllocated：优先选择资源利用率低的节点（Score 阶段）。
NodeResourcesBalancedAllocation：优先选择资源分布均衡的节点（Score 阶段）。

这些插件的打分和亲和性/反亲和性是独立的。

5. 总结

你的配置是硬反亲和性，只做节点过滤，不参与打分。
只有软反亲和性（preferred）才会影响打分，且只和 label/topologyKey 匹配有关。
节点的 CPU、内存、存储等资源打分由其他资源相关插件负责，和亲和性/反亲和性打分机制无关。

如果你想让调度器“尽量”分散 Pod，但资源紧张时也能调度，可以用 preferredDuringSchedulingIgnoredDuringExecution。如果你想“必须”分散，则用 requiredDuringSchedulingIgnoredDuringExecution。两者的调度机制和打分机制完全不同。

如需资源打分插件的源码分析或调度优先级细节，可以继续追问！

打分的机制 V4.0

你的配置如下（Kubernetes 1.24）：

podAntiAffinity:
  preferredDuringSchedulingIgnoredDuringExecution:
    - podAffinityTerm:
        labelSelector:
          matchLabels:
            AppName: redis-8dd539fe
            redis.resource.type: server
        topologyKey: kubernetes.io/hostname
      weight: 100

下面详细说明K8s 1.24 下该配置的调度打分机制：

1. 配置含义

这是软反亲和性（preferred anti-affinity）。
调度器会尽量避免将新 Pod 调度到与 label 为 AppName=redis-8dd539fe 且 redis.resource.type=server 的 Pod 在同一节点（kubernetes.io/hostname）上。
但如果资源紧张等原因无法满足，也可以调度到同一节点。

2. 调度打分机制（源码级）

2.1 相关源码位置

pkg/scheduler/algorithm/priorities/interpod_affinity.go
主要函数：InterPodAffinityPriority

2.2 打分流程

Filter 阶段
- 软反亲和性不会过滤节点，所有节点都进入下一步。
Score 阶段
- 对每个候选节点，遍历所有 preferred 规则（你这里只有一条，weight=100）。
- 对每个节点，统计该节点上有多少个 label 匹配的 Pod。
- 每有一个匹配的 Pod，节点分数就会减少（反亲和性是“越少越好”）。
- 最终分数会归一化到 0~100，分数越高越优先。

伪代码简化（K8s 1.24）：

for each node in candidateNodes:
    matchingPods = countPodsOnNode(node, labelSelector, topologyKey)
    score = maxScore - matchingPods * weight
    nodeScores[node] = score
normalize(nodeScores)

maxScore 通常为 100。
如果节点上没有匹配的 Pod，得分最高（100）。
如果节点上有 1 个匹配 Pod，得分 0（或更低，归一化后为 0）。
多个 preferred 规则时，分数累加。

2.3 归一化

所有节点的分数会被归一化到 0~100。
分数最高的节点最优先被选中。

3. 实际调度效果

如果有节点没有目标 label 的 Pod，新 Pod 会优先调度到这些节点。
如果所有节点都有目标 label 的 Pod，调度器会在这些节点中选择分数最高的（即目标 Pod 最少的节点）。
如果所有节点分数都一样（比如副本数大于节点数），调度器会随机分配。

4. 资源打分与亲和性打分的关系

亲和性/反亲和性打分和资源打分（如 CPU、内存）是独立插件，最后会加权合并。
你的配置只影响亲和性打分，不影响资源打分。
如果资源相关插件分数更高，最终调度结果可能会被资源打分影响。

5. 代码片段（K8s 1.24）

核心实现（pkg/scheduler/algorithm/priorities/interpod_affinity.go）：

func (ipa *InterPodAffinity) CalculateInterPodAffinityPriority(...) {
    for _, node := range nodes {
        var score int
        for _, term := range pod.Spec.Affinity.PodAntiAffinity.PreferredDuringSchedulingIgnoredDuringExecution {
            matchingPods := countMatchingPods(node, term)
            score -= matchingPods * int(term.Weight)
        }
        nodeScores[node.Name] = score
    }
    // 归一化分数
    ...
}