„Mir hat das Medikament XYZ aber geholfen“. „Und mir haben die homöopathischen Globuli geholfen“.
Diese Sätze hört und liest man in Diskussionen häufig. Oftmals folgt darauf die Frage, warum man dann noch Studien benötige, wenn der Erfolg doch so offensichtlich sei. Viele Leute – auch Samuel Hahnemann, der Erfinder der Homöopathie – setzen Schlussfolgerungen aus ihren Erfahrungen über Schlussfolgerungen aus Studien.
Hahnemann schreibt:
„Ich fordere gar keinen Glauben dafür und verlange nicht, dass dies jemandem begreiflich sei. Auch ich begreife es nicht; genug aber, die Tatsache ist so und nicht anders. Bloß die Erfahrung sagt’s, welcher ich mehr glaube als meiner Einsicht.“
Gebhardt, Karl-Heinz. „Geschichte der Homöopathie.“ Allgemeine Homöopathische Zeitung 246.02 (2001): 66-71.
Zitiert aus der Homöopedia
Wissenschaftlich gesehen bieten Einzelfallbeobachtungen – man nennt sie auch „Anekdoten“ – keine Möglichkeit zu einem echten Erkenntnisgewinn. Sie können zu weiteren Anstrengungen anregen, Erkenntnisse zu gewinnen und dabei möglicherweise auch zu unerwarteten Erkenntnissen zu kommen. Aber anekdotische Wirkungsbeobachtungen selbst sind keine Belege für eine tatsächliche Wirksamkeit. Auch nicht, wenn die Beobachtung von vielen geteilt wird.
Warum ist das so?
Wir müssen akzeptieren, dass jeder Mensch sich irren kann. Ich meine nicht einen Irrtum hinsichtlich der persönlichen Beobachtung. Von „eingebildeter Beobachtung“ spricht niemand. Die Irrtumsmöglichkeit betrifft den behaupteten – vielleicht existenten, vielleicht aber auch nicht existenten – Kausalzusammenhang.
„Ich selbst habe die persönliche Beobachtung gemacht, dass Kaninchen innerhalb von 10 Sekunden im leeren Zylinderhut eines Zauberkünstlers entstehen. Ich habe es mit meinen eigenen Augen gesehen. Jetzt weiß ich, wie Kaninchen gemacht werden.“
Niemand spricht mir die Beobachtung ab. Jeder, der schon einmal eine Zaubershow gesehen hat, weiß, wovon ich rede. Die Beobachtung selbst steht nicht zur Diskussion. Aber die Schlussfolgerung, „Kaninchen entstehen im Zylinderhut eines Zauberkünstlers“ wird allgemein als „falsch“ angesehen: und das völlig zu Recht!
Wenn bestimmten Substanzen heilende Wirkungen zugetraut werden und man die Beobachtung gemacht hat, dass nach der Einnahme der Substanz eine Besserung eingetreten ist, dann liegt die Vermutung eines Kausalzusammenhanges natürlich nahe; sie ist aber nicht zwingend richtig!
Es gibt viele äußere Umstände, die eine Kausalität vortäuschen können. Dazu gehören
- Der Placeboeffekt im engeren Sinne.
- Die Krankheit selbst mit ihrem charakteristischem Heilungsverlauf (Spontanheilung).
- Die „Regression zur Mitte“: Schlimme und weniger schlimme Beschwerden wechseln sich ab; Beschwerden wachsen nicht über alle Grenzen und „pendeln“ um einen Mittelwert.
- Wunschdenken von Patient und Arzt.
- Selektive Wahrnehmung.
- Suggestion, verbal und non-verbal.
Die Liste erhebt keinen Anspruch auf Vollständigkeit.
Ein weiteres Problem ist, dass jeder Beobachter nur eine Beobachtung machen kann, es aber mehrere Möglichkeiten gibt:
- Man nimmt ein zu testendes Medikament ein und Besserung tritt ein.
- Man nimmt ein zu testendes Medikament ein und Besserung tritt nicht ein.
- Man nimmt das zu testende Medikament nicht ein, aber dennoch tritt Besserung ein.
- Man nimmt das zu testende Medikament nicht ein und Besserung tritt auch nicht ein.
Wenn wir zuverlässig wissen wollen, ob Substanzen (z. B. homöopathische Globuli) echte, also wirksame, Medikamente sind, dann müssen wir uns den Fehlermöglichkeiten der Einzelbeobachtung stellen und sie möglichst vollständig ausschließen. Und wir müssen wissen, wie viele Leute Beobachtungen gemacht haben, die in die Gruppen 2 bis 4 einsortiert werden müssen.
Zur Beantwortung dieser Fragen benötigt man Studien. Es werden viele Probanden für die Studie herangezogen. Diese Probanden werden in zwei Gruppen aufgeteilt. Beide Gruppen sollen bezogen auf allgemeine Merkmale möglichst gleich oder zumindest sehr ähnlich sein. Dass in einer Gruppe nur Männer, in der anderen nur Frauen sind, muss ausgeschlossen sein. Ebenso dürfen in der einen Gruppe nicht alle Probanden jung und in der anderen alle Probanden alt sein. Die Ähnlichkeit der Gruppen wird durch einen Zufallsprozess hergestellt: Man nennt das „Randomisieren“.
Zwischen den Gruppen soll es im Idealfall nur einen Unterschied geben: Die eine Gruppe („Verumgruppe“) erhält das zu testende Medikament und die andere Gruppe („Kontrollgruppe“) nicht. Damit es in der Kontrollgruppe nicht auffällt, dass deren Probanden keine Medikamente bekommen, erhalten sie inhaltsleere Medikamentenformen („Placebos“), die sich äußerlich nicht von den echten Medikamenten unterscheiden.
Die Probanden dürfen natürlich nicht wissen, ob sie zur Verumgruppe oder zur Kontrollgruppe gehören: Die Studie muss „blind“ sein. Und damit der Arzt, der Verum oder Placebo austeilt, nicht unbewusst non-verbale Informationen verraten kann – auch bei dem Autor der Studie ist ein Wunschdenken nicht auszuschließen –, darf auch der Arzt nicht wissen, ob er das Verum oder das Placebo austeilt: Die Studie muss „doppelblind“ sein.
Und es muss vorher festgelegt werden, was genau getestet werden soll. Die Studie muss „prospektiv“ sein.
Die „prospektive, randomisierte, placebokontrollierte Doppelblindstudie“ („RCT“ bedeutet „randomized controlled trial“) stellt den Standard dar, der an Studien gestellt werden muss. Wenn die Studie dann noch „multizentrisch“ ist – also an mehreren Orten von mehreren Experimentatoren durchgeführt wird –, dann ist die Qualität noch besser.
Wenn man in einer RCT einen Unterschied findet zwischen der Verum- und der Kontrollgruppe, dann liegt der Unterschied mit hoher Wahrscheinlichkeit an dem zu testenden Medikament. Leider erzielt man auch mit den besten Studien nur eine „hohe Wahrscheinlichkeit“, aber keine hundertprozentige Sicherheit. Es kann immer noch zufällige Einflüsse geben, die das Studienergebnis verfälschen. Mit zunehmender Zahl an Probanden wird der Einfluss des Zufalls aber immer geringer.
Die RCT muss so konzipiert werden („Studien-Design“), dass der Autor der Studie den Einfluss des Zufalls abschätzen kann. Mit Hilfe der Mathematik („Statistik“) kann man eine „Irrtumswahrscheinlichkeit“ berechnen. Die Irrtumswahrscheinlichkeit wird mit zunehmender Probandenzahl geringer.
Ein Studienergebnis gilt als „signifikant“ – also „anerkennungsfähig“ –, wenn die Irrtumswahrscheinlichkeit 5 % oder geringer ist.
Wenn man eine definitiv unwirksame Substanz testet, dann bedeutet das: Von 100 Studien werden 95 Studien völlig richtig anzeigen, dass die Substanz unwirksam ist. Aber es werden auch 5 Studien fälschlicherweise anzeigen, dass die Substanz wirksam ist! Bei einer Irrtumswahrscheinlichkeit von 5 % sind entsprechend 5 % der Studien „falsch positiv“.
Hier droht eine Fehlermöglichkeit: Wer sich entscheidet, nur die wenigen „falsch positiven“ Studien zu veröffentlichen, nicht aber die vielen „richtig negativen“ Studien, begeht einen „Veröffentlichungs-Fehler“, den man „publication bias“ nennt. Es ist eine Form der Manipulation und Desinformation. Es ist eine Täuschung der Öffentlichkeit, die im besten Fall einen Erkenntnisgewinn verhindert und im schlechtesten Fall zu falschen „Erkenntnissen“ führt.
Aus diesem Grunde ist auch die Nennung nur einer einzigen Studie, die ein positives Ergebnis zeigt, kein Beweis für die Wirksamkeit einer zu testenden Substanz. Es gibt nur einen 95prozentigen Hinweis. Studien müssen reproduzierbar sein. Wenn das gleiche Studiendesign von einer anderen Studiengruppe durchgeführt wird, sollte tunlichst das gleiche Ergebnis dabei herauskommen. Ergebnisse müssen unabhängig davon sein, wer sie liefert.
Wenn man wirklich Erkenntnisse gewinnen will, dann muss man mehrere Studien zu einer „Metastudie“ zusammenfassen. Und mehrere „Metastudien“ sind noch besser als nur eine einzige „Metastudie“.
Aber auch bei Metastudien gibt es noch Fehlermöglichkeiten: Die Qualität der Studie muss nämlich unbedingt berücksichtigt werden. Wenn die Zahl der Probanden zu klein ist oder wenn die Randomisierung fehlerhaft ist und zu systematischen Verzerrungen führen kann oder wenn die Verblindung / Doppelverblindung fehlerhaft ist und die Probanden wissen können, zu welcher Gruppe sie gehören, dann steigt die Irrtumswahrscheinlichkeit stark an. In solchen fehlerhaften Studien finden sich weit mehr als nur 5 % falsch positive Ergebnisse.
Der Autor einer Metastudie muss sich also alle Studien anschauen und die Studienqualität beurteilen. Studien, die eine schlechte Qualität und damit eine hohe Fehlerwahrscheinlichkeit haben, dürfen für eine Metastudie nicht herangezogen werden. Aber diese Studien sind genau diejenigen, die häufig ein positives (falsch positives!) Ergebnis haben.
Diejenigen, die sich ein positives Ergebnis (zum Beispiel die Wirksamkeit von homöopathischen Globuli) wünschen, werden die Metastudie wegen des Ausschlusses schlechter Studien kritisieren. Sie werden sagen, die Auswahl der Einzelstudien sei tendenziös gewesen und habe unfairerweise nur die Studien ausgeschlossen, die ein positives Ergebnis gezeigt hätten, aber Studien mit negativem Ergebnis bevorzugt. Sie werden sagen, positive Studien seien nur deshalb ausgeschlossen worden, damit die Metastudie das Ergebnis liefere, dass sich der Studienleiter wünsche. Sie werfen solchen Metastudien Korruption vor.
Der Vorwurf ist geradezu bösartig. Der Ausschluss oder Einschluss einer Studie in einer Metastudie wird gerade nicht am Endergebnis festgemacht, sondern einzig und allein an der Studienqualität. Und das ist völlig korrekt: Aus fehlerhaften Studien kann man keine zuverlässigen Informationen gewinnen.
Für die Homöopathie bedeutet das: In den 200 Jahren, seit es Homöopathie gibt, ist die „Evidenzlage“ so, dass qualitativ hochwertige Metastudien in ihrer Gesamtheit keine Hinweise auf die Wirksamkeit „homöopathischer Arzneien“ (Globuli, Tropfen, Injektionen, Salben) erbracht haben. Klagen von Homöopathen, es seien Studien mit positivem Ergebnis nicht berücksichtigt worden, sind dem Wunsch geschuldet, „homöopathische Arzneimittel“ mögen wirksam sein. Sie sind nicht dem Wunsch nach echtem Erkenntnisgewinn geschuldet.