【系统设计】系统设计中反复提到的30个核心概念

原创于 2025-07-24 00:23:30 发布 · 713 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#系统设计

系统设计理论专栏收录该内容

7 篇文章

订阅专栏

文章目录

一、网络与通信基础：系统互联的地基
二、接口与API设计：系统协作的桥梁
三、数据存储与管理：系统的“记忆体”
四、系统扩展与高可用：应对增长与故障的能力
五、分布式系统与服务治理：大规模协作的保障
六、异步解耦与流量治理：弹性缓冲、流量保护和数据一致性
七、结语：系统设计的本质与实践

系统设计对于刚入门的人来说可能让人望而生畏，尤其是不知道从哪里开始。但一旦你理解了核心概念和构建模块，无论是准备面试还是在工作中设计可扩展系统，系统设计都会变得不再那么吓人。在工作中，这些概念在构建和扩展大型系统时被反复使用。

基于AlgoMaster的30个系统设计概念，本文将深入解析30个系统设计核心概念，帮助读者构建完整的系统设计认知框架。

一、网络与通信基础：系统互联的地基

核心概念

1. 客户端-服务器架构

客户端-服务器（Client-Server）架构是现代互联网服务的起点。客户端负责用户交互，服务器负责数据处理和业务逻辑。客户端可以是网页浏览器、移动应用或其他前端应用，服务器可以是一台持续运行、等待处理请求的机器。

客户端发送请求来存储、检索或修改数据。服务器接收请求，处理它，执行必要的操作，然后返回响应。
这听起来很简单，但有个大问题：客户端怎么知道去哪里找服务器？

2. IP地址与DNS

客户端不会凭空知道服务器在哪里，它需要一个地址来定位和通信。在互联网中，计算机通过IP地址互相识别，这就像服务器的电话号码。每台公开部署的服务器都有一个唯一的IP地址。当客户端想要与服务交互时，必须向正确的IP地址发送请求。

但这带来了问题：访问网站时我们不会输入IP地址，而是输入网站名；不能指望用户（甚至系统）记住每个服务的随机数字串；如果服务迁移到另一台服务器，IP地址可能会变，所有直连都会失效。

为了解决难以记忆IP地址的问题，我们使用了更友好的方式：域名。但我们需要一种方式将域名映射到对应的IP地址。这就是DNS（域名系统）的作用。它将易于记忆的域名（如algomaster.io）映射到对应的IP地址。幕后发生的事情如下：

当你在浏览器输入algomaster.io时，你的电脑会向DNS服务器请求对应的IP地址。
一旦DNS服务器返回IP，浏览器就用它与服务器建立连接并发起请求。
你可以用ping命令查找任何域名的IP地址。只需在终端输入ping加域名即可。

3. 代理与反向代理

当你访问网站时，请求并不总是直接到服务器——有时会先经过代理或反向代理。

代理服务器充当你和互联网之间的中间人。它代理的是客户端端，比如当你请求网页时，代理会将请求转发到目标服务器，获取响应后再返回给你。代理隐藏了你的IP地址，保护了你的地理位置和身份隐私。

反向代理则相反，它代理的是服务器，它拦截客户端请求，并根据预设规则将其转发到后端服务器。直接暴露服务器会带来安全风险，比如黑客攻击和DDoS攻击。反向代理通过作为受控入口点，调节流量并隐藏服务器IP，降低了这些风险。它还可以作为负载均衡器，将流量分发到多台服务器。

4. 延迟与网络优化

每当客户端与服务器通信时，总会有一些延迟。物理距离是造成延迟的最大原因之一。举例来说，如果服务器在纽约，而用户在印度发起请求，数据需要横跨半个地球来回传输。

这种往返的延迟被称为延迟（latency）——即数据在客户端和服务器之间传输所需的总时间。高延迟会让应用变得缓慢且响应不及时。降低延迟的一种方式是将服务部署在全球多个数据中心。这样，用户可以连接到最近的服务器，而不用等待数据跨越全球。

5. HTTP/HTTPS

每次你访问网站时，浏览器和服务器都会用一套规则进行通信，这套规则叫做HTTP（超文本传输协议）。
这也是为什么大多数网址以http://或其安全版本https://开头。

工作原理如下：

客户端向服务器发送请求。请求包含头部（如请求类型、浏览器类型、Cookie等信息），有时还包含请求体（如表单数据）。
服务器处理请求并返回HTTP响应——要么返回请求的数据，要么返回错误信息。

HTTP 有一个主要的安全缺陷：数据以明文传输。这对密码、信用卡等敏感信息来说是个大问题。因此现代网站都使用HTTPS（安全超文本传输协议）。HTTPS 通过SSL/TLS加密所有数据，即使被拦截也无法被读取或篡改。

总结

网络与通信基础为现代系统设计提供了最底层的支撑。

客户端-服务器架构定义了服务的基本交互模式，确保用户请求能够被正确处理。IP地址和DNS解决了服务寻址的可用性和灵活性问题，让用户无需记忆复杂的数字串即可访问服务。代理与反向代理不仅提升了安全性和隐私保护，还为系统带来了流量调度和负载均衡能力。延迟与网络优化则直接影响用户体验，全球多点部署等手段有效降低了访问延迟。最后，HTTP/HTTPS协议为数据传输提供了标准和安全保障，HTTPS的普及更是现代互联网安全的基石。

二、接口与API设计：系统协作的桥梁

核心概念

6. API与RESTful设计

可以把 API 理解为中间人，让客户端（如网页、App）与服务器通信，而不用关心底层细节。几乎所有你用到的数字服务——社交媒体、电商、网银、打车——背后都在用 API 进行通信。典型流程：

客户端向 API 发送请求。
API（在服务器上）处理请求，与数据库或其他服务交互，准备响应。
API以结构化格式（通常是 JSON 或 XML）返回响应，客户端解析并展示。
API 提供了抽象层——客户端只需关心“我要什么”，不用关心“服务器怎么处理”。

在众多 API 风格中，REST（表述性状态转移）是最常用的。REST API 遵循一套规则，定义了客户端和服务器如何通过 HTTP 结构化通信。REST API 的核心思想如下：

用 HTTP 方法（GET、POST、PUT、DELETE）操作资源
每个资源有唯一的 URL
无状态，每次请求都包含所有必要信息

7. API版本控制

随着系统演进，API 可能会发生变化。API 版本控制可以保证新旧客户端都能正常使用服务。

常见的版本控制方式有：在 URL 中加版本号（如 /api/v1/）、在请求头中指定版本，良好的版本控制策略有助于平滑升级和兼容历史客户端。

8. Webhooks

Webhooks是一种服务器主动通知机制。当某个事件发生时，服务端会主动向注册的 URL 发送 HTTP 请求，通知对方处理。常见场景如：支付成功通知、代码推送触发 CI/CD、短信/邮件回调等。Webhooks 节省了轮询资源，实现了高效的系统间通信。

总结

接口与API设计是现代系统实现高效协作的关键桥梁。

API为客户端和服务器之间的通信提供了标准化的抽象层，使前端和后端可以独立演进，极大提升了系统的灵活性和可维护性。RESTful API以统一的资源操作方式和无状态原则，简化了服务间的交互流程，成为业界主流。API版本控制则保障了系统升级和演进过程中的兼容性，避免了新旧客户端因接口变更而出现兼容性问题。Webhooks通过事件驱动的方式，实现了系统间的实时、低成本通知，极大提升了自动化和响应速度。

综上，接口与API设计让系统各部分能够标准、灵活、低耦合地协作，是支撑复杂业务和敏捷开发的核心机制。

三、数据存储与管理：系统的“记忆体”

核心概念

9. 数据库选择

大多数应用都需要存储和检索数据，这就需要用到数据库。

关系型数据库（如MySQL、PostgreSQL）适合结构化数据和复杂查询，NoSQL数据库（如MongoDB、Cassandra）适合非结构化数据和高并发场景。选择合适的数据库类型，直接影响系统的性能和扩展性。

10. 缓存

数据库查询通常比内存访问慢很多。缓存通过将热点数据存储在高速存储（如内存）中，显著提升数据访问速度。常见的缓存系统有 Redis、Memcached 等。缓存可以用在多种场景，比如：缓存数据库查询结果、缓存静态资源、多级缓存（如浏览器缓存、CDN 缓存、应用缓存）。

设计缓存时要考虑缓存一致性、失效策略等问题。

11. 数据分片

当单台数据库无法承载所有数据时，可以将数据分片，即分散到多台数据库服务器上。

水平分片：按行分割，比如用户ID 1-10000 存在A库，10001-20000存在B库。
垂直分片：按表或字段分割，比如用户表在A库，订单表在B库。

分片可以提升系统的处理能力和可用性，但也带来分布式事务和跨分片查询等新挑战。

12. 一致性模型

在分布式系统中，数据可能存储在多个节点上。一致性保证所有节点的数据是同步的。常见的一致性模型有：

强一致性：所有节点始终保持相同数据
最终一致性：允许短暂不一致，最终会同步
因果一致性：保证因果相关的操作顺序一致

不同业务场景对一致性的要求不同，需权衡一致性、可用性和性能。

13. CAP定理

CAP定理指出，分布式系统无法同时满足一致性（Consistency）、可用性（Availability）、分区容错性（Partition Tolerance）。实际系统设计中，通常只能三选二。

例如，NoSQL数据库常常牺牲一致性以提升可用性和分区容错。

总结

数据存储与管理是系统设计中保障数据可靠性、性能和可扩展性的核心环节。

数据库的选择决定了数据结构、查询能力和扩展方式，是系统性能的基础。缓存机制通过内存加速，极大提升了热点数据的访问效率，减轻了数据库压力。数据分片则突破了单机数据库的容量和性能瓶颈，使系统能够支撑大规模数据和高并发访问。分布式环境下，一致性模型和CAP定理为数据的正确性、可用性和容错性提供了理论指导。

综上，数据存储与管理层通过合理的数据库选型、缓存策略、分片设计和一致性权衡，为系统的高性能、高可用和可扩展性提供了坚实的“记忆体”支撑。

四、系统扩展与高可用：应对增长与故障的能力

核心概念

14. 负载均衡

当有成千上万的用户同时访问你的应用时，单台服务器很难承受所有流量。

负载均衡器的作用就是将用户请求分发到多台服务器上，从而分散压力，提高系统的可用性和扩展性。负载均衡器可以是硬件设备，也可以是软件服务。常见的负载均衡算法有轮询、最少连接、加权分配等。通过负载均衡，即使某台服务器宕机，其他服务器也能继续为用户提供服务，提升了系统的容错能力。

15. 水平与垂直扩展

水平扩展：通过增加服务器数量提升系统处理能力，适合大规模、高并发场景。
垂直扩展：通过提升单台服务器的硬件配置提升性能，适合早期或小规模系统。

优秀的系统设计通常优先考虑水平扩展。

16. 容错机制

分布式环境下，节点故障是常态。容错机制确保部分节点故障时，系统仍能正常运行。常见的容错机制有：

故障检测：及时发现节点异常
自动恢复：节点故障后自动重启或切换
降级策略：部分功能不可用时，系统仍能提供核心服务

容错机制提升了系统的鲁棒性和高可用性。

17. 监控与告警

大规模系统需要实时监控各项指标（如CPU、内存、流量、错误率等），并在异常时自动告警。监控系统帮助运维团队及时发现和定位问题，保障系统稳定运行。常见的监控工具有 Prometheus、Grafana、 ELK、Zabbix 等。

18. 日志与追踪

日志记录了系统的运行状态和关键事件，是排查问题的重要依据。
分布式追踪（如 Jaeger、Zipkin）可以跟踪一次请求在多个服务间的调用链路，帮助定位性能瓶颈和故障点。良好的日志和追踪体系是高效运维和故障排查的基础。

总结

系统扩展与高可用机制是保障服务稳定运行和持续成长的关键。

负载均衡通过智能分发流量，确保系统能承受大规模并发访问，并提升了容错能力。水平扩展让系统可以通过增加服务器数量应对业务增长，垂直扩展则适合早期或资源有限的场景。容错机制为系统提供了自动检测、恢复和降级能力，使部分节点故障不会影响整体服务。监控与告警体系让运维团队能够实时掌握系统健康状况，快速响应异常。日志与分布式追踪则为问题定位和性能优化提供了数据支撑。

这一层的设计让系统具备了弹性、韧性和自愈能力，能够在用户量激增或局部故障时依然保持高可用和高性能，是现代互联网服务不可或缺的保障。

五、分布式系统与服务治理：大规模协作的保障

核心概念

19. 分布式系统

当单台服务器无法满足业务需求时，就需要分布式系统。分布式系统通过多台服务器协同工作，提升系统的性能、可用性和扩展性。

分布式系统的核心挑战包括：节点间通信、数据一致性、故障检测与恢复、负载均衡等。常见的分布式系统有分布式数据库、分布式缓存、分布式文件系统等。

20. 分布式算法

分布式系统需要用到各种分布式算法来解决节点间的协调和一致性问题。

常见的分布式算法有：

一致性哈希：用于分布式缓存、分布式存储的数据分布
Paxos、Raft：用于分布式一致性和主节点选举
两阶段提交、三阶段提交：用于分布式事务

这些算法是分布式系统的理论基础。

21. 服务发现

在分布式系统中，服务实例可能动态扩缩容，IP 和端口经常变化。服务发现机制可以让服务自动注册和发现彼此。常见的服务发现组件有 Consul、Eureka、Zookeeper 等。

服务发现保证了系统的弹性和可维护性，是微服务架构的基础设施。

22. 微服务架构

微服务架构将单体应用拆分为多个独立的小服务，每个服务负责单一业务功能，拥有独立的数据库和逻辑。
优点：各服务可独立开发、部署、扩展；单个服务故障不会影响整体系统

缺点：服务间通信复杂；运维和监控难度提升；微服务适合大型、复杂、需要高可用和高扩展性的系统。

23. API网关

在微服务架构中，直接暴露每个服务会带来安全、管理等问题。API 网关作为所有客户端请求的统一入口，负责：认证、限流、日志、监控；路由请求到对应的微服务；聚合多个服务的响应。

常见的 API 网关有 NGINX、Kong、AWS API Gateway 等。API 网关简化了 API 管理，提升了系统的安全性和可扩展性。

24. 服务认证与授权

身份认证（Authentication）：确认用户身份，如登录、Token 校验等。
授权（Authorization）：判断用户是否有权限访问某资源或操作。

服务认证（Authentication）和授权（Authorization）是保护系统和用户数据的基础。常见机制有OAuth2、JWT、API Key等。

总结

分布式系统与服务治理为现代大规模、高可用系统提供了坚实的协作基础。

当单台服务器无法满足业务需求时，分布式系统通过多节点协作提升了性能、可用性和扩展性。分布式算法为节点间的数据一致性、主节点选举和事务处理提供了理论支撑，确保系统在复杂环境下依然可靠运行。服务发现机制让服务实例能够动态注册和互相发现，支撑了弹性扩缩容和自动化运维。微服务架构通过服务拆分实现了高内聚、低耦合，提升了开发效率和系统弹性，但也带来了通信和运维的复杂性。API网关作为统一入口，简化了服务暴露、流量治理和安全管理。服务认证与授权机制则为系统和用户数据安全保驾护航。

综上，这一层的设计让系统能够在大规模、动态变化的环境下高效协作、灵活扩展，并保障了安全与可控，是现代互联网架构的核心支柱。

六、异步解耦与流量治理：弹性缓冲、流量保护和数据一致性

核心概念

25. 消息队列

在单体系统中，函数之间可以直接调用并等待响应。但在分布式架构下，这种同步调用会带来效率低、耦合高的问题。

消息队列允许服务之间异步通信，即：

生产者（如结算服务）将消息放入队列（如“处理支付”）。
队列暂存消息，直到消费者（如支付服务）准备好处理。
消费者从队列中取出消息并处理。

这样，服务之间解耦，系统的可扩展性和容错性大大提升。常见的消息队列有 Apache Kafka、RabbitMQ、Redis（也有消费、订阅功能）等。

26. 限流

如果有恶意用户或爬虫每秒发起成千上万次请求，可能导致服务器崩溃、资源耗尽，影响正常用户。

限流就是限制每个用户或 IP 在一定时间内的请求次数。例如：每分钟最多100次请求，超出则暂时封禁或返回错误（如 HTTP 429）。

常见的限流算法有：

固定窗口（Fixed Window）
滑动窗口（Sliding Window）
令牌桶（Token Bucket）

限流可以保护系统免受过载攻击，提升整体稳定性。

27. 幂等性

在分布式系统中，网络故障和重试很常见。例如，用户刷新支付页面，系统可能收到两次支付请求。
幂等性保证多次相同请求的结果与一次请求相同，不会造成重复操作。

实现方式通常是为每个请求分配唯一 ID，服务端处理前先检查该请求是否已处理过，已处理则忽略，未处理则正常执行。

幂等性可以防止重复扣款、重复下单等问题，确保数据一致性。

总结

异步解耦与流量治理机制让系统在高并发和异常情况下依然稳定高效。

消息队列通过异步通信和解耦，打破了服务间的强依赖，提升了系统的可扩展性和容错能力，是微服务和分布式架构中不可或缺的基础设施。限流机制有效防止恶意流量和突发高并发对系统造成冲击，保障了服务的稳定性和公平性。幂等性则确保在网络抖动、重试等异常情况下，系统不会因重复请求而产生数据错误或业务混乱，极大提升了系统的健壮性和用户体验。

综上，这一层的设计为系统提供了弹性缓冲、流量保护和数据一致性保障，使其能够从容应对复杂多变的生产环境挑战。