MySQL索引B+树详解

原创

hide

发布于 2025-07-02 09:51:02

6730

文章被收录于专栏：技术教程技术教程

MySQL 的 InnoDB 存储引擎使用 B+树 作为其索引的底层数据结构，这是实现高效数据检索、范围查询、排序和保证事务特性的核心。下面是对 MySQL 索引 B+ 树的详细解析：

B+ 树的核心设计目标

适配磁盘存储： 磁盘 I/O（读取/写入数据块）是数据库操作的主要性能瓶颈。B+ 树设计成每个节点大小通常等于一个磁盘页（如 16KB），最大化每次 I/O 读取的数据量。
降低树高度： B+ 树是一个“矮胖”的多叉树。极高的分支因子意味着在相同数据量下，B+ 树的高度远低于二叉树（如 AVL 树、红黑树），从而减少了访问叶子节点所需的磁盘 I/O 次数（通常只需 3-4 次 I/O 就能找到数据）。
高效范围查询： 所有数据记录都存储在叶子节点，并且叶子节点之间通过双向链表连接起来，使得范围查询（如 WHERE id BETWEEN 10 AND 100）非常高效，只需定位到起始点，然后顺序遍历链表即可。
查询稳定性： 任何查询（无论基于主键还是辅助键）都需要访问到叶子节点才能获得完整数据或主键，路径长度相同，性能稳定。
充分利用预读： 顺序访问叶子节点链表时，磁盘预读机制能提前加载相邻数据页，进一步提升范围查询性能。

二、 B+ 树的结构详解（以 InnoDB 为例）

一棵典型的 B+ 树包含以下几种节点：

根节点 (Root Node):
- 树的顶端节点。
- 可以包含子节点指针（指向内部节点或叶子节点），也可能直接包含数据（在非常小的树中，根节点也可以是叶子节点）。
- 当数据增长导致根节点满时，会发生分裂，产生新的根节点，树的高度增加。
内部节点 (Internal Nodes / Non-Leaf Nodes):
- 位于根节点和叶子节点之间的节点。
- 不存储实际的数据行记录！
- 存储的内容是 索引键 (Index Key) 和 子节点指针 (Child Pointers)。
- 结构：[P1, K1, P2, K2, ..., Pn-1, Kn-1, Pn]
  - Pi 是指向子节点的指针。
  - Ki 是索引键值，用于在子节点间进行路由。
  - 指针 P1 指向的子树中所有键值 < K1。
  - 指针 Pi 指向的子树中所有键值 >= Ki-1 且 < Ki (对于 1 < i < n)。
  - 指针 Pn 指向的子树中所有键值 >= Kn-1。
- 内部节点的键值通常是其子节点中键值的副本（通常是子节点中的最小值或最大值，具体实现有差异）。
叶子节点 (Leaf Nodes):
- 树的底层节点，存储实际的数据。
- 核心结构：
  - 索引键 (Index Key)： 建立索引的列（或列组合）的值。
  - 数据指针 (Data Pointer)：
    - 对于聚簇索引 (Clustered Index / Primary Index)： 存储的是整个数据行 (The Entire Row Record)。主键索引本身就是聚簇索引。
    - 对于辅助索引 (Secondary Index / Non-Clustered Index)： 存储的是该行对应的主键值 (Primary Key Value)，而不是数据行本身。通过这个主键值再去聚簇索引中查找完整的行数据（这个过程称为回表 - Bookmark Lookup）。
- 双向链表： 所有叶子节点通过前向指针 (Previous Pointer) 和后向指针 (Next Pointer) 连接成一个有序的双向链表。这是支持高效范围查询的关键！

三、 B+ 树的特性

平衡性 (Balanced)： 从根节点到任意一个叶子节点所经过的路径长度是相同的。
有序性 (Ordered)：
- 单个节点内的键值是有序排列的（通常从小到大）。
- 节点之间也是有序的：左兄弟节点中所有键值 < 右兄弟节点中所有键值。
- 叶子节点的双向链表提供了全局的有序性。
节点填充因子： 每个节点（除根节点外）的键/指针数量通常被设计为达到一个最小填充因子（例如 50%）。这保证了空间利用效率，并减少了树的高度。节点在插入时会尽量填充，满了才分裂；删除时如果低于阈值会尝试合并。
多路搜索： 每个节点可以有 m 个子节点（m 称为 B+ 树的阶）。m 的大小由磁盘页大小和键/指针大小决定（在 InnoDB 中，m 通常很大，几百甚至上千）。

四、 B+ 树的操作（简述）

查找 (Search):
- 从根节点开始。
- 在节点内部使用二分查找（或顺序查找）找到第一个大于等于目标键值的位置。
- 根据指针进入相应的子节点。
- 重复以上过程，直到到达叶子节点。
- 在叶子节点中找到精确匹配的键值（或范围），获取数据指针（聚簇索引）或主键（辅助索引）。
- 如果是辅助索引且需要所有列数据，则用获得的主键值去聚簇索引中回表查询。
插入 (Insert):
- 首先进行查找，定位到目标键值应该插入的叶子节点。
- 如果该叶子节点有空间，则直接插入并保持节点内有序。
- 如果叶子节点已满，则进行分裂 (Split)：
  - 将该节点的键值（和数据）平均分成两部分（通常是一半）。
  - 创建一个新的叶子节点。
  - 将后半部分的键值/数据移到新节点。
  - 更新叶子节点的双向链表指针（新节点插入到原节点后面）。
  - 将新节点的最小键值和指向它的指针插入到其父节点（一个内部节点）中。
- 父节点插入新键值/指针后也可能变满，导致父节点分裂。这个过程可能会一直递归向上传播到根节点。如果根节点分裂，则创建一个新的根节点，树的高度增加。
删除 (Delete):
- 首先进行查找，定位到目标键值所在的叶子节点。
- 从叶子节点中删除该键值（以及对应的数据指针）。
- 检查该叶子节点删除后是否低于最小填充因子（下溢）：
  - 如果没有下溢，操作完成。
  - 如果发生下溢，尝试向左或右兄弟节点借一个元素：
    - 如果相邻兄弟节点有富余元素（删除后仍高于最小填充因子），则从兄弟节点借一个元素（通常是最大或最小值），并通过父节点中的键值进行相应更新。这避免了合并。
  - 如果无法借（兄弟节点也已达到最小填充因子），则进行合并 (Merge)：
    - 将该节点、一个兄弟节点以及父节点中分隔它们的键值合并成一个节点。
    - 从父节点中删除分隔键值和指向被合并兄弟的指针。
    - 更新叶子节点的双向链表指针（跳过被删除的兄弟节点）。
    - 父节点删除键值/指针后也可能发生下溢，导致父节点也需要借或合并。这个过程也可能递归向上传播到根节点。如果根节点只剩下一个子节点（且该子节点被合并），则该子节点成为新的根节点，树的高度降低。

五、 B+ 树在 MySQL InnoDB 中的具体实现

聚簇索引 (Clustered Index):
- 表数据按照主键顺序物理存储在 B+ 树的叶子节点中。这就是为什么 InnoDB 表必须有主键（如果没有显式定义，InnoDB 会生成一个隐藏的 RowID 作为主键）。
- 聚簇索引决定了表中数据的物理存储顺序。
- 一个表只有一个聚簇索引（主键索引）。
- 通过主键查找非常快（一次 B+ 树查找直达数据行）。
辅助索引 (Secondary Index):
- 叶子节点存储的是索引列的值 + 对应行的主键值。
- 查找过程需要两次 B+ 树搜索：
  - 在辅助索引 B+ 树中找到主键值。
  - 用该主键值在聚簇索引 B+ 树中查找完整的行数据（回表）。
- 覆盖索引 (Covering Index)：如果辅助索引的叶子节点中已经包含了查询需要的所有列（通常是索引列本身 + 主键），则不需要回表，可以显著提升性能。
页 (Page) 的概念:
- InnoDB 中磁盘管理的基本单位是 页 (Page)，默认大小为 16KB。B+ 树的每个节点（根、内部、叶子）都对应一个或多个页。
- 页是 I/O 操作的最小单位。读取一个节点就是读取一个或多个页。
自适应哈希索引 (Adaptive Hash Index):
- 虽然底层是 B+ 树，但 InnoDB 会监控对索引页的访问模式。如果发现某些索引值被非常频繁地用等值查询访问（且模式固定），它会在内存中为这些热点数据自动建立一个哈希索引，以加速访问。这是自动的、透明的。

六、 B+ 树索引的优势总结

极低的磁盘 I/O: 矮胖树形结构，高度低，查找数据通常只需几次磁盘 I/O。
高效的范围查询： 叶子节点双向链表使 ORDER BY, BETWEEN, GROUP BY 等操作非常高效。
高扇出 (High Fanout)： 节点存储大量键/指针，极大降低树高。
查询性能稳定： 所有查询路径长度相同（都要到叶子节点）。
充分利用顺序 I/O： 链表结构和磁盘预读机制使得顺序扫描效率高。
支持覆盖索引优化： 避免回表。

七、示例图解 (简化版)

》》》text
                              [根节点]
                              [10,  50]
                             /     |     \
                [内部节点1]        [内部节点2]         [内部节点3]
                [5, 8]            [20, 30, 40]        [60, 70]
               /   |   \          /   |   |   \        /   |   \
[叶子1] <-> [叶子2] <-> [叶子3] <-> [叶子4] <-> [叶子5] <-> [叶子6] <-> [叶子7]
[1,2,3,4]   [5,6,7]   [8,9,10]  [11,12..20] [21..30] [31..40,50] [51..60] [61..70, ...]
(数据行)     (数据行)   (数据行)    (数据行)     (数据行)   (数据行)     (数据行)   (数据行)

查找键值 25： 根节点 (25>=10 & <50?) -> 内部节点2 (25>=20 & <30?) -> 叶子5 -> 找到数据行。
查找键值范围 [15, 35]： 定位到叶子4 (>=15的起点)，然后通过链表依次扫描叶子4、叶子5、叶子6，直到找到 >35 的值。
插入键值 28 (假设叶子5已满)： 分裂叶子5。假设分裂点为30，[21..28] 留在原叶子5，[30, 31..40, 50] 移到新叶子8。将新叶子8的最小键值30和指针插入父节点（内部节点2）。内部节点2如果因此满了，也可能继续分裂。

理解 MySQL 索引的 B+ 树实现，对于设计高效的表结构、编写高性能 SQL 查询、以及进行数据库调优至关重要。它解释了为什么主键查询快、为什么范围查询比随机散列索引好、为什么需要避免不必要的回表操作（使用覆盖索引）、以及索引维护（插入/删除/更新）的成本来源。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

索引