SQL数据库连接算法——Nested Loop/Merge join/Hash Join（转）

2024年3月19日 189点热度 0人点赞 0条评论

一、原理
二、理解

GPT对Nested Loop/Merge join/Hash Join的解释是这样的：

为你总结一下这三种连接（join）算法：Nested Loop Join、Merge Join和Hash Join。

https://www.cnblogs.com/laihuanming/articles/17749970.html

一、原理

1、Nested Loop Join:

原理：对于表A中的每一行，扫描表B来找到匹配项，类似两个嵌套的循环。
优势：当其中一个表非常小，或者大表上有高效的索引时，这种方法通常更为高效。
劣势：对于两个大表之间的连接，性能可能会受到很大影响，因为它可能会进行大量的磁盘I/O操作。

2、Merge Join:

原理：两个表首先按连接键排序，然后并行扫描以找到匹配的行。
优势：对于两个已排序的大表，这是非常高效的。
劣势：需要两个输入表都是排序的。如果它们原本没有排序，那么排序的开销可能会很大。

3、Hash Join:

原理：使用哈希表结构。首先，从两个表中的一个（通常是较小的那个）创建哈希表，然后扫描另一个表并与哈希表进行匹配。
优势：当其中一个表较小，能够适应内存时，性能很高。
劣势：如果哈希表太大而不能完全放入内存，性能可能会降低。

4、总结：

如果你有一个非常小的表和一个大表，或者一个表上有有效的索引，Nested Loop Join 可能是一个好选择。
如果两个表都很大但已经排序，Merge Join 可能更为高效。
如果一个表可以完全适应内存，并且没有排序，那么Hash Join 可能是最好的选择。

然而，在实际应用中，数据库查询优化器通常会根据数据的实际状况（例如表的大小、是否有索引、是否已排序等）自动为我们选择最适合的连接算法。

二、理解

这里着重展示一下三种具体的算法区别，假设这里有两张表table_a：a,b,c,d,e,f和table_1：1,2,3,4,5,6。

1、Nested Loop是指：

搜索到 table_a的 b,然后用b去table_1走一遍索引，搜索到2.
搜索到 table_a的 c,然后用b去table_1走一遍索引，搜索到3.
搜索到 table_a的 d,然后用b去table_1走一遍索引，搜索到4.
依次类推，他的是时间复杂度是：O(table_a_select_row_num*(table_1_index))

所以，table_1的索引得高效，或者table_1是一张很小的表。

2、Merge join是指

事先两个表的关联ID是排好序的，就可以逻辑上形成如下结构：

a,b,c,d,e,f
1,2,3,4,5,6

我们可以用双指针执行一遍搜索，指针1从a开始，指针2从2开始，因为两个表都是有序的，可以执行O(table_a_select_row_num+table_1_select_row_num)的算法。

所以，两个表的关联字段都得是有序，而且不管俩表多大，都只会查询一遍选择到的数据行。

3、Hash Join是指：

将table_a的关联字段全表扫描，获取hash值并内存保存，然后遍历table_1进行匹配，他的时间复杂度是O(table_a_all_row_num+table_1_all_row_num)。

所以，他只适用于table_a是小表，而且关联字段无排序的场景。

本作品采用知识共享署名 4.0 国际许可协议进行许可