EXISTS vs IN vs JOIN：百万数据下的性能实测

原创于 2025-12-02 10:12:22 发布 · 494 阅读

CC 4.0 BY-SA版权

快速体验

打开 InsCode(快马)平台 https://www.inscode.net

输入框内输入如下内容：

创建一个MySQL查询性能对比工具，自动生成测试数据并执行三种查询方式：1) EXISTS子查询 2) IN子查询 3) JOIN查询。功能包括：1) 可配置数据量（1万到百万级）2) 相同查询逻辑的三种实现 3) 执行时间统计和比较 4) 执行计划可视化。使用Python脚本自动生成测试数据，Java Spring Boot提供REST API，前端用ECharts展示对比结果。

点击'项目生成'按钮，等待项目生成完整后预览效果

示例图片

最近在优化公司项目的数据库查询时，发现同事对EXISTS、IN和JOIN的使用场景有很多争论。为了找出最合适的查询方式，我决定做一个性能对比实验，分享下实测结果和优化心得。

测试环境搭建

先设计了一个包含用户表和订单表的测试数据库，用Python脚本自动生成1万到100万条随机数据。关键字段包括用户ID、订单金额、创建时间等常见业务字段。数据生成时会确保存在适当的关联关系，比如部分用户有订单、部分用户没有订单。

三种查询方式实现

针对相同的查询需求（比如查找有订单的用户），分别用三种方式实现： - EXISTS子查询：通过WHERE EXISTS判断关联记录是否存在 - IN子查询：用WHERE IN列出所有符合条件的用户ID - JOIN查询：通过内连接直接关联两表并去重

执行效率对比

在1万条数据量时，三种方式耗时都在毫秒级，差别不大。但数据量增加到10万条时，差异开始显现： - EXISTS平均耗时比IN快约30% - JOIN在简单查询中表现最好，比EXISTS还快15% - IN随着数据量增长性能下降最明显

当数据达到百万级时，EXISTS和JOIN仍然保持较好的线性增长，而IN查询的耗时呈现指数级上升。特别是在关联字段没有索引时，IN的性能会急剧恶化。

执行计划分析

通过EXPLAIN查看执行计划发现： - EXISTS通常会利用半连接优化，避免全表扫描 - IN在MySQL5.6之后会被优化为半连接，但复杂查询仍可能失效 - JOIN在简单关联时效率最高，但多表复杂关联可能产生临时表

优化建议

根据测试结果整理了几条实用建议： - 小数据量可以随意选择，但养成使用EXISTS的习惯更好 - 大数据量关联查询优先考虑JOIN或EXISTS - 使用IN时要确保关联字段有索引，且子查询结果集不大 - 定期检查慢查询日志，对高频查询进行EXPLAIN分析

工具实现技巧

为了更方便做这类测试，我用Spring Boot开发了个小工具： - 后端提供生成测试数据和执行查询的API - 前端用ECharts可视化不同查询的耗时对比 - 自动记录执行计划并高亮关键指标

这个工具帮我节省了大量重复测试的时间，也让我更直观地理解了不同查询方式的特性。

通过这次实践，我发现数据库优化不能只靠经验，实际测试数据才是最有说服力的。特别是在业务数据量快速增长时，早期的查询方式可能成为性能瓶颈。建议大家在关键业务上线前都做下类似的基准测试。

最近发现InsCode(快马)平台可以快速部署这类性能测试工具，他们的Java环境和MySQL都是预装好的，还能一键发布成可访问的网页服务，特别适合做技术验证。示例图片实测从代码上传到服务上线只要2分钟，省去了自己配置服务器的时间。

快速体验

打开 InsCode(快马)平台 https://www.inscode.net

输入框内输入如下内容：

创建一个MySQL查询性能对比工具，自动生成测试数据并执行三种查询方式：1) EXISTS子查询 2) IN子查询 3) JOIN查询。功能包括：1) 可配置数据量（1万到百万级）2) 相同查询逻辑的三种实现 3) 执行时间统计和比较 4) 执行计划可视化。使用Python脚本自动生成测试数据，Java Spring Boot提供REST API，前端用ECharts展示对比结果。