On sparc64+ext4, suppress test failures from known WAL read failure.
authorNoah Misch
Thu, 27 Jan 2022 02:06:19 +0000 (18:06 -0800)
committerNoah Misch
Thu, 27 Jan 2022 02:06:23 +0000 (18:06 -0800)
Buildfarm members kittiwake, tadarida and snapper began to fail
frequently when commits 3cd9c3b921977272e6650a5efbeade4203c4bca2 and
f47ed79cc8a0cfa154dc7f01faaf59822552363f added tests of concurrency, but
the problem was reachable before those commits.  Back-patch to v10 (all
supported versions).

Discussion: https://postgr.es/m/20220116210241[email protected]

contrib/amcheck/t/003_cic_2pc.pl
src/test/perl/TestLib.pm

index c5391869655f5f436d9a5d1d373b105915ac276c..d81734fca784cc160c56b7a1433b82547eabd8b4 100644 (file)
@@ -11,6 +11,8 @@ use TestLib;
 
 use Test::More tests => 5;
 
+local $TODO = 'filesystem bug' if TestLib::has_wal_read_bug;
+
 my ($node, $result);
 
 #
index 0b9cd2cd99d75a4a7c5c8aafa5b4970f0753db50..f409a30acaf1b4d30f80a8259c4be67c9b01b622 100644 (file)
@@ -315,6 +315,29 @@ sub perl2host
 
 =pod
 
+=item has_wal_read_bug()
+
+Returns true if $tmp_check is subject to a sparc64+ext4 bug that causes WAL
+readers to see zeros if another process simultaneously wrote the same offsets.
+Consult this in tests that fail frequently on affected configurations.  The
+bug has made streaming standbys fail to advance, reporting corrupt WAL.  It
+has made COMMIT PREPARED fail with "could not read two-phase state from WAL".
+Non-WAL PostgreSQL reads haven't been affected, likely because those readers
+and writers have buffering systems in common.  See
+https://postgr.es/m/[email protected] for details.
+
+=cut
+
+sub has_wal_read_bug
+{
+   return
+        $Config{osname} eq 'linux'
+     && $Config{archname} =~ /^sparc/
+     && !run_log([ qw(df -x ext4), $tmp_check ], '>', '/dev/null', '2>&1');
+}
+
+=pod
+
 =item system_log(@cmd)
 
 Run (via C) the command passed as argument; the return