Fix hash join when inner hashkey expressions contain Params.
authorTom Lane
Tue, 20 Jun 2023 21:47:36 +0000 (17:47 -0400)
committerTom Lane
Tue, 20 Jun 2023 21:47:53 +0000 (17:47 -0400)
If the inner-side expressions contain PARAM_EXEC Params, we must
re-hash whenever the values of those Params change.  The executor
mechanism for that exists already, but we failed to invoke it because
finalize_plan() neglected to search the Hash.hashkeys field for
Params.  This allowed a previous scan's hash table to be re-used
when it should not be, leading to rows missing from the join's output.
(I believe incorrectly-included join rows are impossible however,
since checking the real hashclauses would reject false matches.)

This bug is very ancient, dating probably to d24d75ff1 of 7.4.
Sadly, this simple fix depends on the plan representational changes
made by 2abd7ae9b, so it will only work back to v12.  I thought
about trying to make some kind of hack for v11, but I'm leery
of putting code significantly different from what is used in the
newer branches into a nearly-EOL branch.  Seeing that the bug
escaped detection for a full twenty years, problematic cases
must be rare; so I don't feel too awful about leaving v11 as-is.

Per bug #17985 from Zuming Jiang.  Back-patch to v12.

Discussion: https://postgr.es/m/17985-748b66607acd432e@postgresql.org

src/backend/optimizer/plan/subselect.c
src/test/regress/expected/join_hash.out
src/test/regress/sql/join_hash.sql

index 19dd6deff65ce93c05215a65c16653f75865f317..a1957883baf3806f59a5e84989ec30992e8c71ee 100644 (file)
@@ -2653,6 +2653,11 @@ finalize_plan(PlannerInfo *root, Plan *plan,
                              &context);
            break;
 
+       case T_Hash:
+           finalize_primnode((Node *) ((Hash *) plan)->hashkeys,
+                             &context);
+           break;
+
        case T_Limit:
            finalize_primnode(((Limit *) plan)->limitOffset,
                              &context);
@@ -2753,7 +2758,6 @@ finalize_plan(PlannerInfo *root, Plan *plan,
            break;
 
        case T_ProjectSet:
-       case T_Hash:
        case T_Material:
        case T_Sort:
        case T_IncrementalSort:
index 3ec07bc1af4d52022e1b6b52c5ccced7d2962f7f..d9eb6785a8ef2223316f1333d370cb759aacaeb0 100644 (file)
@@ -1031,3 +1031,39 @@ WHERE
 (1 row)
 
 ROLLBACK;
+-- Verify that we behave sanely when the inner hash keys contain parameters
+-- (that is, outer or lateral references).  This situation has to defeat
+-- re-use of the inner hash table across rescans.
+begin;
+set local enable_hashjoin = on;
+explain (costs off)
+select i8.q2, ss.* from
+int8_tbl i8,
+lateral (select t1.fivethous, i4.f1 from tenk1 t1 join int4_tbl i4
+         on t1.fivethous = i4.f1+i8.q2 order by 1,2) ss;
+                        QUERY PLAN                         
+-----------------------------------------------------------
+ Nested Loop
+   ->  Seq Scan on int8_tbl i8
+   ->  Sort
+         Sort Key: t1.fivethous, i4.f1
+         ->  Hash Join
+               Hash Cond: (t1.fivethous = (i4.f1 + i8.q2))
+               ->  Seq Scan on tenk1 t1
+               ->  Hash
+                     ->  Seq Scan on int4_tbl i4
+(9 rows)
+
+select i8.q2, ss.* from
+int8_tbl i8,
+lateral (select t1.fivethous, i4.f1 from tenk1 t1 join int4_tbl i4
+         on t1.fivethous = i4.f1+i8.q2 order by 1,2) ss;
+ q2  | fivethous | f1 
+-----+-----------+----
+ 456 |       456 |  0
+ 456 |       456 |  0
+ 123 |       123 |  0
+ 123 |       123 |  0
+(4 rows)
+
+rollback;
index 77dbc182d5380e985ffcdc979a7a68013f67dc47..e1707cd2bb85e21eb8eb8c223d873f7eb16ea22c 100644 (file)
@@ -556,3 +556,22 @@ WHERE
     AND hjtest_1.a <> hjtest_2.b;
 
 ROLLBACK;
+
+-- Verify that we behave sanely when the inner hash keys contain parameters
+-- (that is, outer or lateral references).  This situation has to defeat
+-- re-use of the inner hash table across rescans.
+begin;
+set local enable_hashjoin = on;
+
+explain (costs off)
+select i8.q2, ss.* from
+int8_tbl i8,
+lateral (select t1.fivethous, i4.f1 from tenk1 t1 join int4_tbl i4
+         on t1.fivethous = i4.f1+i8.q2 order by 1,2) ss;
+
+select i8.q2, ss.* from
+int8_tbl i8,
+lateral (select t1.fivethous, i4.f1 from tenk1 t1 join int4_tbl i4
+         on t1.fivethous = i4.f1+i8.q2 order by 1,2) ss;
+
+rollback;