Trau' keinem Test unter Dreißig

Warum eine Ausweitung des PraenaTests massenhaft falsch-positive Ergebnisse mit sich brächte. Von Paul Cullen

Ärzte wissen: „Schlimmer geht immer.“ Das Dumme ist nur: Bei der nicht-invasiven vorgeburtlichen Diagnostik ist das „Ende der Fahnenstange“ noch lange nicht in Sicht. Foto: dpa
Ärzte wissen: „Schlimmer geht immer.“ Das Dumme ist nur: Bei der nicht-invasiven vorgeburtlichen Diagnostik ist das „End... Foto: dpa

„Es gibt Lügen und verdammte Lügen,

und dann gibt es die Statistik ...“

Mark Twain

Seit 2012 ist es möglich, ungeborene Kinder mit Down-Syndrom anhand einer Untersuchung des mütterlichen Blutes zu identifizieren. In aller Regel werden diese Kinder dann auch abgetrieben und somit getötet – denn eine Therapie für das Down-Syndrom gibt es derzeit nicht. Wir haben es bei diesem Test also nicht mit der Diagnose einer Krankheit, sondern mit Selektion zu tun.

Bei der Einführung dieses „nicht-invasiven vorgeburtlichen Tests“ (engl.: non-invasive prenatal diagnostics, NIPD) wurde neben der Einfachheit und Risikolosigkeit der Untersuchung insbesondere die sehr hohe Treffsicherheit der Methode ins Feld geführt. Aber wie misst man eigentlich die „Treffsicherheit“ eines Tests? Um dies zu verstehen, wird es leider nötig sein, ein wenig ins Grundsätzliche zu gehen.

Die Treffsicherheit einer Untersuchungsmethode wird daran gemessen, wie zuverlässig sie Betroffene von nicht-Betroffenen (in der Regel Kranke von Gesunden) trennen kann. Um dies zu ermitteln, wird die Methode bei einer Gruppe von Kranken und einer Gruppe von Gesunden angewendet und die Anzahl der Fälle gezählt, die ein zutreffendes beziehungsweise ein nicht-zutreffendes Ergebnis aufweisen.

Um dies an einem einfachen Beispiel zu illustrieren gehen wir bei diesem zunächst von 100 Kranken und 100 Gesunden aus. Bei einem perfekten Test würde alle 100 Kranke ein „positives“ Testergebnis und alle 100 Gesunde ein „negatives“ Testergebnis aufweisen. (Zur Erklärung: In der medizinischen Fachsprache werden die Begriffe „positiv“ und „negativ“ in Bezug auf Untersuchungsergebnisse meist so verwandt, dass sie genau das Gegenteil dessen meinen, was sie in anderen Kontexten bedeuten). Als Mediziner reden wir, um bei unserem Beispiel zu bleiben, daher von einer richtig-Positivrate und richtig-Negativrate von jeweils 100 Prozent, beziehungsweise von einer falsch-Positiv- und falsch-Negativrate von jeweils null Prozent.

Einen derart perfekten Test wie in unserem Beispiel gibt es jedoch in der ganzen Medizin nicht. Vielmehr weist jeder Test einen gewissen Anteil an Ergebnissen auf, die nicht richtig sind: Das heißt, es wird bei den Gesunden trotzdem einige Testergebnisse geben, die fälschlicherweise „positiv“ ausschlagen, sowie es unter den Kranken immer auch solche Testergebnisse geben wird, die fälschlicherweise „negativ“ ausschlagen. Für viele Untersuchungsmethoden, die jeden Tag eine breite Anwendung finden, sind falsch-Positiv- und falsch-Negativraten in der Größenordnung von zehn Prozent überhaupt keine Seltenheit. (Für viele Methoden wird sogar der „Normbereich“ als der Bereich definiert, der 95 Prozent der gesunden Bevölkerung einschließt, so dass fünf Prozent aller Gesunden ein „abnormes“ Testergebnis aufweisen müssen).

So gesehen überrascht es nicht, wenn die Konstanzer Firma LifeCodexx (wie auch inzwischen andere NIPD-Anbieter) bei der Einführung des PraenaTests mit der hohen Treffsicherheit der Methode werben. Und in der Tat lässt sich die Treffsicherheit dieser Untersuchungsmethoden unter technischen Gesichtspunkten durchaus sehen. Auf ihrer Webseite wirbt LifeCodexx beispielsweise damit, dass ihr Test eine Detektionsrate von mindestens 98 Prozent (anders ausgedrückt, eine falsch-Negativrate von weniger als 2 Prozent) und eine falsch-Positivrate von rund 0,1 Prozent aufweist.

Das bedeutet, dass statistisch betrachtet von 100 schwangeren Frauen, die tatsächlich ein Baby mit Down-Syndrom erwarten, nur zwei mittels des PraenaTests fälschlicherweise als Mütter ausgewiesen würden, deren Kind „kein Down-Syndrom“ aufweise. Und von 1 000 Frauen, deren Babys tatsächlich kein Down-Syndrom aufweisen, würde nur eines aufgrund des Tests fälschlicherweise mit dem „Verdacht auf Down-Syndrom“ befundet. Aus Sicht eines Labormediziners sind diese Werte sensationell hoch und von kaum einer anderen Laboruntersuchung zu übertreffen.

Gleichwohl sind Kennziffern wie die „falsch-Positivrate“ und die „falsch-Negativrate“ nur die halbe Wahrheit. Denn entscheidend in der täglichen Praxis ist nicht, wie oft ein Test bei 100 Kranken positiv oder negativ wird, sondern, was das Testergebnis im konkreten Einzelfall bedeutet.

Diese Aussage nennt man die positive oder negative Vorhersagekraft eines Testergebnisses. Im Falle der NIPD lautet die wichtigste Frage: „Was ist die Wahrscheinlichkeit bei einem positiven Testergebnis, dass diese Frau, die vor mir sitzt, tatsächlich ein Kind mit Down-Syndrom austrägt?“

Überraschenderweise hängt die Antwort auf diese Frage in erster Linie nicht von der Treffsicherheit des Tests, sondern von der Wahrscheinlich eines Down-Syndrom-Kinds bei der betroffenen Frau ab.

Dieser Umstand ist sehr wichtig, denn die Häufigkeit des Down-Syndroms hängt sehr vom Alter der Mutter (und zu einem geringeren Grad auch vom Alter des Vaters) ab. Bei einer 20-jährigen Mutter liegt das Risiko einer Schwangerschaft mit einem Down-Syndrom-Baby beispielsweise bei etwa 1:2 000. Wir wissen aber, dass von 1 000 Schwangerschaften mit Babys ohne Down-Syndrom der Test in einem Fall „falsch-positiv“ sein muss. Wird also der PraenaTest bei 2 000 jungen Frauen mit Niedrigrisikoschwangerschaften angewendet, so müssen wir im Schnitt mit drei positiven Testergebnissen rechnen. Doch nur eines davon ist auch „richtig-positiv“ und betrifft das Kind, das auch tatsächlich Träger des Down-Syndroms ist. Die beiden anderen sind „falsch-positive“ Testergebnisse. Das bedeutet aber im Ergebnis nichts anderes, als dass bei solchen Niedrigrisikoschwangeren etwa zwei Drittel der positiven Testergebnisse (rund 66 Prozent) falsch-positiv und damit auch tatsächlich falsch sein müssen. Dies entspricht im übrigen auch den Angaben des Deutschen Ethikrats, der im April 2013 geschätzt hatte, dass in Niedrigrisikoschwangerschaften zwei Drittel der positiven Testergebnisse falsch-positiv sein könnten.

Als der Praenatest und die anderen NIPDs eingeführt wurden, hat man lediglich die sogenannten „Hochrisikoschwangerschaften“ als Zielgruppe identifiziert. Außerdem wurde empfohlen, den Test erst ab der neunten Schwangerschaftswoche einzusetzen. Möglicherweise getrieben durch die rege Konkurrenz auf diesem Sektor sieht man sich inzwischen dazu veranlasst, diese Zielgruppe zu erweitern. Diese Erweiterung erfolgt erstens durch eine Ausweitung der Indikation. Das heißt, es wird nicht nur nach Down-Syndrom, sondern auch nach anderen erblichen Störungen (beispielsweise den Trisomien 15 und 18 (Praena-Test), das Turner-Syndrom (Panorama-Test), sowie nach den Geschlechtschromosomen zur Bestimmung des Geschlechts (alle NIPD-Verfahren) gefahndet.

Sodann wird der Test Schwangeren angeboten, die nicht zu einer Hochrisikogruppe gehören, sprich Frauen unter 35 Jahre bis hin zu allen schwangeren Frauen unabhängig vom Alter. Schließlich versucht man, durch technische Verbesserungen die Empfindlichkeit des Tests zu erhöhen, so dass er auch in einer möglichst frühen Phase der Schwangerschaft verwendet werden kann. So ist es heute zum Beispiel möglich, ein Ergebnis des Praenatests deutlich vor der 12. Schwangerschaftswoche zu erhalten, was bedeutet, dass Abtreibungen noch innerhalb der Drei-Monats-Frist und ohne Angabe einer Indikation durchgeführt werden können.

Damit aber sind viele der Bedenken, die Gegner dieser Untersuchung bei ihrer Einführung geltend gemacht haben, bereits drei Jahre später Realität. Insbesondere durch die Ausweitung der Untersuchung auf Niedrigrisikoschwangerschaften weicht die Treffsicherheit der Untersuchung deutlich von der ab, die durch die Zahlen, mit denen die Hersteller werben, suggeriert wird. Hierbei muss bedacht werden, dass die Falschpositivrate der Untersuchung umso höher steigt, je seltener Chromosomenstörungen wie Down-Syndrom bei der untersuchten Alterskohorte vorkommen.

Bedenkt man nun, dass der Test aber gerade deshalb angewendet wird, um die Chancen der Eltern auf ein „gesundes“ Kind möglichst zu erhöhen, entbehrt diese Situation nicht einer gewissen Ironie. Selbst die Frauenärztinnen der „Arbeitsgemeinschaft Frauengesundheit“, die für „das Recht [einer Frau], … eine Schwangerschaft abzubrechen, deren Austragen sie körperlich oder seelisch überfordert“ eintreten, sind über diese Entwicklung besorgt. „Wir sehen“, schreiben sie, „dass durch eine immer ausgefeiltere Pränataldiagnostik ein gesellschaftliches Problem, nämlich der Umgang mit einem Leben mit Behinderung ... in unsere Arztpraxis verlagert wird. Wir befürchten, dass ein risikoorientierter Denkstil sich mit hohen leistungsorientierten und ästhetischen Anforderungen an Kinder verbindet, während Bemühungen um Inklusion von Menschen mit Behinderung aus dem Blickfeld geraten. Eine bewusste Entscheidung für ein erkranktes oder behindertes Kind droht immer schwieriger zu werden.“

Wir haben bei solchen Untersuchungen das Ende der Fahnenstange noch lange nicht erreicht. Schon in wenigen Jahren werden NIPD-Methoden verfügbar sein, mit denen sich Mutationen in einzelnen Genen feststellen lassen werden. Dadurch werden nicht nur Erbkrankheiten wie die zystische Fibrose oder die Muskeldystrophie feststellbar sein, sondern auch Gene für Krankheiten oder Krankheitsrisiken, die sich erst im Erwachsenenleben manifestieren, wie Morbus Huntingdon oder hereditärer Brustkrebs.

Ähnlich einer Hollywood-Diva, die bei dem verzweifelten Versuch, die Zeichen des Alterns aufzuhalten, zu immer drastischeren schönheitschirurgischen Maßnahmen greift, versucht unsere Gesellschaft inzwischen wirklich alles, um Behinderte restlos auszuselektieren und das „perfekte“ Kind zu gewährleisten.

So sind wir auch bereit, diesem Bemühen nicht-Behinderte wissentlich zu opfern. Aber selbst ein Test, der restlos alle genetischen Störungen erkennen könnte, würde letztlich wenig ausrichten, da über 95 Prozent aller Behinderungen erst nach der Geburt durch Unfälle oder Krankheit entstehen.

So gerät das Prinzip dieser Testung vollends ad Absurdum. Dass die Akzeptanz von Behinderungen und behinderten Menschen durch diese frustrane Übung nicht gerade erhöht wird, liegt auf der Hand. Vielmehr ist zu befürchten, dass die Selektion umso wütender um sich greifen wird, je deutlicher ihre Impotenz sichtbar wird.

Der Autor ist habilitierter Labormediziner und Vorsitzender der „Ärzte für das Leben“