Die guten ins Töpfchen, die schlechten ins Kröpfchen: Die Gütekriterien von Forschung

Während Aschenputtel beim Sortieren der Linsen in gute und schlechte Hilfe von Tauben hatte, musst du ganz allein entscheiden, ob du eine Studie kochst ernst nimmst oder an Tauben verfütterst ignorierst. Ich hab keine Ahnung, wie man gute von schlechten Linsen unterscheidet, aber bei Studien hätte ich ein paar Ideen.

Eine Möglichkeit liegt darin, die Studien, die das belegen, was man selbst glaubt, wahrzunehmen und zu verbreiten und die anderen Studien zu ignorieren. Das Problem daran: Es ist nicht wissenschaftlich. Es ist so ziemlich das Gegenteil davon. Ich empfehle stattdessen sich bei der Prüfung einer Studie an den folgenden Fragen zu orientieren:

1. Ist die Forschung ethisch vertretbar? Ist recherchierbar, wer die Forschung bezahlt?

Wenn wir Kinder nach ihren Diskriminierungserfahrungen befragen, dann kann es sein, dass das bei den Kindern negative Erinnerungen hervorruft. Aber wenn wir sie nicht fragen, dann finden wir nie raus, ob und in welchem Umfang Diskriminierung an Schulen vorkommt.

Um solche Fragen abzuwägen, gibt es an Universitäten Ethik-Kommissionen, die ein Forschungsvorhaben absegnen müssen. Gerade, wenn Kinder beforscht werden, sind die Ethik-Standards an einigen Unis ziemlich hoch.

Mit der Frage nach Ethik ist manchmal auch die Frage verbunden, in wessen Interesse geforscht wird[1]. Wenn Anbieter von ABA (Applied Behaviour Analysis, eine umstrittene Methode zum Umgang mit Autismus) sich selbst auf Wirksamkeit überprüfen, dann sollte man genauso skeptisch sein wie bei Anbietern von Anti-Aggressions-Trainings oder bei Medikamentenherstellern. Du musst diese Studien nicht gleich an die Tauben verfüttern, aber du solltest die folgenden Fragen noch gründlicher prüfen als geplant:

2. Ist die Forschung objektiv?

Objektivität heißt nicht, dass die Forschung komplett neutral sein muss. Aber wenn du ein Experiment machst, dann musst du das so gut beschreiben, dass ich es genauso machen kann (Standardisierung), was ich dann auch mache (Durchführungsobjektivität) und das Ergebnis muss bei uns beiden gleich sein (Auswertungsobjektivität).

Bei den Vergleichsarbeiten (oder anderen großen Schulleistungstests) ist die Standardisierung dadurch gegeben, dass es genaue Anweisungen zur Durchführung gibt. Wenn der Lehrer Hannah bei  der Vergleichsarbeit hilft, dann verletzt er die Durchführungsobjektivität.

Die Auswertungsobjektivität ist dann gegeben, wenn Hannahs Lehrer und die Lehrerin aus der Parallelklasse die Arbeit gleich bewerten. Es liegt auf der Hand, dass es leichter ist, die Auswertungsobjektivität bei einer Mathearbeit zu verwirklichen als bei einer Gedichtinterpretation.

Wir müssen die Vergleichsarbeiten nicht sofort an die Tauben verfüttern, nur weil Hannahs Lehrer ihr geholfen hat – er weiß das ja und die Arbeit ist vor allem eine Info für ihn. Aber wenn Klassen systematisch üben oder Aufgaben vorher bekannt werden, ist keine Objektivität mehr gegeben und die Studie nicht mehr zum Verzehr zu empfehlen.

3. Ist die Forschung reliabel?

 „You can always rely on me. Dubduwha. I’ll put them right, rely on me!“ [„du kannst dich immer auf mich verlassen. Dubduwha. Ich lege sie richtig, verlass dich auf mich“]. Das singt die Taube zwar nicht für Aschenputtel, aber wir können uns das ja mal kurz vorstellen: Die Taube entscheidet, welche Linse gut und welche schlecht ist, die Taube „misst“ also die Genießbarkeit und schwört mit dem Song, dass sie das zuverlässig tun wird. Wenn wir die Leistung von Hannah mit einem Test messen, dann wollen wir auch, dass dieser Test das zuverlässig tut. Genauso wie ich will, dass mein Fieberthermometer zuverlässig meine Temperatur misst[2].

Gab es in deiner Schulzeit manchmal Klassenarbeiten mit zwei verschiedenen Gruppen, damit man nicht vom Nebenblatt abschreiben kann? Und hattest du da das Gefühl, dass der andere Test leichter war als deiner?

Falls ja, lag das vermutlich an deiner Wahrnehmung.

Oder: Es lag an der fehlenden Reliabilität des Tests. Indem ich nämlich einen Test in zwei Hälften teile, kann ich seine Reliabilität statistisch berechnen (Paralleltest-Methode).

Wie von einem verlässlichen Täubchen darf man auch von einem reliablen Messinstrument eine Gewisse Schwankungsfreiheit im Messergebnis erwarten. Wenn Hannah den gleichen Test einmal am Anfang der Woche und einmal am Ende der Woche schreibt, dann sollten sich die Ergebnisse nicht zu stark unterscheiden (Test-Retest-Methode).

Und wenn die böse Stiefschwester Hannah gezwungen hat, die ganze Woche für den Test zu lernen, statt wie ihre Geschwister für mehr Frauenrechte zu demonstrieren?

Dann ist die Test-Restest-Methode nicht so geil zur Bestimmung der Reliabilität, denn diese Methode funktioniert nur, wenn das, was gemessen werden soll, ziemlich stabil ist, also selbst nicht zu sehr schwankt. Intelligenz ist zum Beispiel stabiler als die Buchstabenkenntnis eines Kleinkindes.

Was mach ich bei so wankelmütigen Merkmalen?

Ich kann prüfen, ob die einzelnen Teile des Tests zu ähnlichen Ergebnissen führen. Ich hab also nicht zwei Tests oder zwei Zeitpunkte sondern einen Test, den ich halbiere (Testhalbierungsmethode oder Split-Half-Reliabilität) und so auf interne Konsistenz überprüfe. Interne Konsistenz heißt, dass nicht plötzlich eine ganz schwere Aufgabe dabei ist oder eine ganz andere Facette abgefragt wird: Eine Zusatzaufgabe für die ganz Schlauen würde die Reliabilität eines Tests verringern und wenn ein Mathetest aus eindeutigen Aufgaben besteht aber dann plötzlich eine Textaufgabe kommt, dann sorgt die vielleicht dafür, dass der Test in sich nicht mehr konsistent ist.

Wenn in Studien was gemessen wird, sollte man immer nach der Reliabilität des Messinstruments gucken. Ein häufig berichteter Kennwert für die innere Konsistenz ist Cronbach’s α (alpha). Dieser Wert sollte höher sein als .70, bei Tests mit vielen Aufgaben sollte er höher sein als .80. Ist kein Wert angegeben oder ein kleinerer Wert, ist die Studie mit äußerster Vorsicht zu genießen.

4. Ist die Forschung valide?

Wenn die Forschung valide ist, dann ist sie gültig. Wenn man einen gültigen Fahrschein hat, dann muss man kein erhöhtes Beförderungsentgeld bezahlen. Im Forschungsprozess muss man ständig auf ein gültiges Ticket achten, das heißt: Es ist nicht ausreichend, dass die Tauben die Linsen zuverlässig sortiert haben, sondern das Kriterium, nach dem sie sortiert haben, muss auch noch das genau richtige sein. Ich kenn mich zu wenig mit Linsen aus, um im Bild zu bleiben, deshalb gehen wir mal auf eine zum Teil quatschige Umfrage der Aktion Mensch ein: Wenn ich rausfinden will, wie barrierefrei die Stadt ist, dann ist es Unsinn, dies von nicht behinderten Menschen bewerten (das heißt: messen) zu lassen. Um valide Daten zu erhalten muss ich Menschen mit Behinderung fragen.

Außerdem muss das, womit ich „barrierefrei“ messe, valide sein: Ich darf zum Beispiel nicht nur einseitig nach der Zugänglichkeit mit einem Rollstuhl fragen, sondern muss auch die Barrierefreiheit für Blinde, Autisten und andere berücksichtigen. Mein Messinstrument für Barrierefreiheit soll ausschließlich Barrierefreiheit messen (und nicht zum Beispiel auch, wie zufrieden jemand damit ist – dafür bräuchte man ein anderes Instrument)

Allgemein gesagt: Ein Messinstrument ist genau dann gültig, wenn es genau das misst (und nur das!), was es messen soll. Mein Fieberthermometer soll meine Körpertemperatur messen, aber nicht, wie schlecht es mir geht. Ein Intelligenztest soll Intelligenz messen, aber nicht mein Sprachverstehen.

Nur, wenn ich ein valides Messinstrument habe, darf ich meine Ergebnisse interpretieren.

Wenn man durch Forschung zu dem Ergebnis kommt, dass Menschen, die kein oder sehr wenig deutsch sprechen, in Intelligenztests schlechter abschneiden, als Menschen, die sehr gut deutsch sprechen, dann würde ein seriöser Wissenschaftler (und Wissenschaftlerinnen auch) vermuten, dass der Intelligenztest nicht valide war (weil er, anstatt nur Intelligenz zu messen, auch Sprachkenntnisse gemessen hat). Neben so ätzenden Fällen wie Sarrazin kann ein nicht valider Test auch zu so dramatischen Entscheidungen wie bei Nenad führen.

Wenn jemand nicht valide, also unbrauchbare Messinstrumente verwendet, und dann seine Studie als Wissenschaft verkauft – dann ist das wissenschaftliches Fehlverhalten. Der Erkenntnisgewinn einer solchen Studie ist gleich null und man kann sie getrost an die Tauben verfüttern – ach ne doch nicht, denn da ist ja Druckerschwärze dran und das Papier wurde gebleicht und das ist alles nicht gut – schreddern.

———————————

[1] Eine beliebte Frage auch von Verschwörungstheoretiker*innen: Wer hat was davon (Cui bono?). Das allein reicht aber nicht, denn man kann gute Forschung machen, auch wenn sich daran jemand bereichert. Echt.

[2] Könnte hier vielleicht eine*e Naturwissenschaftler*in ein fancy Messinstrument beitragen, bitte kommentieren, danke!


10 Gedanken zu “Die guten ins Töpfchen, die schlechten ins Kröpfchen: Die Gütekriterien von Forschung

  1. Hm, ich sehe nicht ganz inwiefern ethische Vertretbarkeit ein Instrument ist, um zu evaluieren ob eine Studie „gut“ (ich würde das als erkenntnisbringend übersetzen) ist.
    Klar, eine Studie sollte vorher von einer Ethikkommission abgesegnet werden. Aber wenn sie einmal durchgeführt wurde, dann kann sie durchaus „gut“ gewesen sein.

    Beispiel: Die Forschungen von Josef Mengele sind definitiv nicht ethisch vertretbar gewesen, haben aber zu einer ganzen Reihe Erkenntnissen geführt. Insofern kann man sich (im Nachhinein) auf die Resultate dieser Studien stützen, auch wenn die Forschung selbst nicht ethisch war.

    Was mir ein wenig fehlt ist die Erwähnung von Metastudien vs. Einzelresultaten. Da kommt es aber wahrscheinlich wieder darauf an, was mit „gut“ gemeint ist. 🙂

    Was mich als Naturwissenschaftler auch sehr interessieren würde: Wie bewertet man qualitative Forschung, die ja in den Geisteswissenschaften sehr präsent ist. Kann man hier überhaupt von Wissenschaftlichkeit sprechen? Wenn ja, warum?

    Like

    1. Hi Credo,
      Zu qualitativer Forschung gibt es unterschiedliche Ansichten bzgl Gütekriterien. Da kommt vielleicht noch Mal was zu. die o.g. Kriterien (außer Ethik) beziehen sich so beschrieben nur auf quantitative Forschung.
      Bei der Ethik als Kriterium kann man sicherlich streiten. Ich würde dafür plädieren, Erkenntnisse aus unethischen Studien (z.b. Medikamententests an Heimkindern) nicht zu verwerten, um die unethische Praxis nicht zu unterstützen und ggf. den Forschenden entsprechenden Fame zukommen zu lassen.
      Ich bin aber auch nicht in der Medizin – in der Pädagogik geht es selten um Leben und tot, von daher kann man bestimmte Studien ignorieren, ohne große Verluste hinnehmen zu müssen.
      Mit „gut“ mein ich nicht unbedingt Erkenntnisbringend, sondern eher die Stufe darunter: wissenschaftlich redlich.

      Like

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit deinem WordPress.com-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s