Kommt drauf an, ist wahrscheinlich die einzig korrekte Antwort. Allerdings auch eine recht Unbefriedigende. Eine konkrete Zahl wäre doch fein. 50 vielleicht oder 100? Reichen vielleicht auch 8? Ja. Manchmal – hatte ich zumindest schon mal als Stichprobengröße in einer Studie, die ich durchgeführt habe. Falls du eine Studentin bist, die die Frage nach der Stichprobengröße für ihre Abschlussarbeit beantwortet haben will, behalt ruhig 100 oder 8 im Hinterkopf. Wenn du wissen willst, wie groß eine Stichprobe sein muss, damit dich eine Studie näher interessieren soll, dann geht es weniger um eine konkrete Zahl, als um Aussagekraft. Von Repräsentativität hast du wahrscheinlich schon mal gehört? Falls nicht, das ist ein magisches Wort, ähnlich wie Signifikanz, dass entzaubert wird, wenn man weiß, was es bedeutet.
Was ist Repräsentativität?
Studien, deren Ergebnisse durch die Medien gepeitscht werden, sollten schon repräsentativ sein, damit sich der Wirbel lohnt (oft sind sie es nicht). Repräsentativität ist die Frage danach, wie gut die Stichprobe die Grundgesamtheit oder den Gegenstand, den man erforschen will, abbildet. Wenn also eine Studie rausfindet, dass Schokolade nach dem Essen schlank macht, dann sollte das schon für alle gelten und nicht nur für Personen, die Schoki nicht mögen und abnehmen, weil sie Mahlzeiten ausfallen lassen um der Schokolade zu entkommen…
Aber wie viele Leute brauch ich jetzt für eine repräsentative Studie?
Je nach Fragestellung ist die Zahl mehr oder weniger bedeutsam. Denn manchmal gehts eher um Masse und manchmal um Klasse. Manchmal ist es wirklich gut, möglichst viele Leute in der Stichprobe zu haben – wenn wir uns in der quantitativen Forschung befinden und wissen wollen, ob bestimmte Merkmale zusammenhängen oder ob sich Gruppen in bestimmten Merkmalen unterscheiden (wie bei PISA z.b.). Manchmal reichen aber auch ein paar wenige Fälle, die besonders gut die Grundgesamtheit abbilden – in der qualitativen Forschung reichen oft einige wenige Fälle aus, manchmal reicht sogar ein Fall, also zum Beispiel eine Person oder eine Kita. Hier ist weniger oft mehr. Denn es geht darum, ein Phänomen intensiv zu erforschen. Zum Beispiel, wenn wir wissen wollen, warum etwas ist, wie es ist und wenn wir raus finden wollen, wie bestimmte Dinge zusammenhängen, aber noch keine genaue Vorstellung haben, wie genau.
In beiden Fällen sind repräsentative Stichproben wünschenswert – aber Repräsentativität wird unterschiedlich erreicht.
Bei quantitativen Stichproben – mehr ist mehr – ist der Schlüssel zur repräsentativen Stichprobe die Zufälligkeit. Bei PISA zum Beispiel haben alle 15-Jährigen die gleiche Chance, in die Stichprobe zu kommen und werden nicht etwa von den Schulen ausgewählt – die dann vielleicht die jeweils Besten ins Rennen schicken würden… (und falls doch, dann ist das verboten eine Straftat clever statistisch inkorrekt).
Bei qualitativen Stichproben ist es genau umgekehrt: Hier suchen die Forscherinnen und Forscher ihre Stichprobe – ihre Fälle heißt das hier – oft gezielt aus.
Da ist weniger oft mehr. Klasse statt Masse sozusagen.
Zufälligkeit ist dort fehl am Platz, stattdessen geht es um Sättigung. Eine Stichprobe – in der qualitativen Forschung heißt das Sample – ist dann gesättigt, wenn neue Fälle keine neuen Informationen mehr liefern. Aus Forscherinnenperpektive merkt man das daran, dass die Interviews langweilig werden, obwohl man sich möglichst spannende Interviewpartnerinnen und Interviewpartner auswählt. Bei der Auswahl spielt das eigene Vorwissen und die Erwartungen an die Interviewten eine wichtige Rolle. Ich such mir diejenigen aus, von denen ich glaube, dass sie mir besonders viele und tiefgründige Informationen zu meiner Frage liefern. Dafür kann ich, je nach Fragestellung, typische Fälle oder besondere Fälle suchen. Für meine Doktorarbeit habe ich in einer Studie eher typische Fälle gesucht, nämlich Personen, die mir von „typischen Problemen“ erzählen können, die auftreten, wenn Kinder mit Behinderungen auf allgemeine Schulen gehen. Etwa zwei Interviewpartner oder Interviewpartnerinnen je Förderschwerpunkt lieferten hier schon eine gute Basis. Für eine kürzlich durchgeführte Studie zu externen Evaluationen in Berliner Kitas habe ich eher besondere Fälle gesucht, besonders engagierte Evaluatorinnen von verschiedenen Anbietern zum Beispiel und Träger, die besonders zufrieden oder unzufrieden mit der Evaluation waren. Hier war nach acht Interviews eine ausreichende Sättigung erreicht. Natürlich hätte ich in beiden Studien auch noch mehr Leute interviewen können und vielleicht wären auch noch neue Informationenen aufgetaucht – ich musste jedoch auch auf meine zeitlichen Ressourcen achten und darauf, dass die auszuwertende Datenmenge überschaubar bleibt und ich nicht im Kreissaal noch Tabellen erstelle (andere Geschichte). In der qualitativen Forschung kann es leicht passieren, dass das Sample zu groß wird und die Daten dann nicht mehr auswertbar sind – deshalb ist weniger oft mehr. Lieber mit wenig Fällen in die Tiefe als sich in einem Textwust verlieren.
In der quantitativen Forschung ist mehr oft mehr.
Hier kann man nicht im Datenwust ertrinken. Es macht vom Aufwand in der Auswertung keinen Unterschied, ob ich 10, 100, 10000 oder 9999999 Personen in der Stichprobe habe – ich werde für die Auswertung ungefähr gleich lang brauchen. Brauchbare, also aussagekräftige Ergebnisse für Berechnungen, die der Statistikerin Spaß machen, erhalte ich aber nur auf Basis von möglichst vielen Leuten. Auswertungen mit 10 Leuten machen überhaupt keinen Spaß. Neulich hab ich einen Fragebogen ausgewertet mit 16 Personen zur Einschätzung von neuem Material für alltagsintegrierte Sprachförderung. Super spannendes Thema, aber mega langweilige Daten. Denn es gibt zwar Ergebnisse – denn die 16 Leute waren nun mal die, die das Material getestet haben, deswegen sind sie als Datenbasis voll okay. Aber so richtig fancy ist es nicht. Ich konnte nur Häufigkeiten auszählen und musste die sehr vorsichtig interpretieren. Das, was Spaß macht, Muster und Zusammenhänge erkennen zum Beispiel, ist bei so kleinen Stichproben nicht möglich. Deswegen hab ich meinen Studierenden immer gesagt, so 50 oder 100 Leute wären für ihre Abschlussarbeit schon schön. Damit sie auch zeigen können, was sie gelernt haben.
Bei großen Stichproben kann man Muster en masse erkennen. Umso mehr, umso besser, also desto mehr Zusammenhänge werden sich zeigen. Das kann auch eine Gefahr sein, denn in sehr großen Stichproben werden auch sehr kleine Effekte signifikant – und das wird oft überinterpretiert.
Wir können zusammenfassen:
Je größer eine quantitative Stichprobe, desto spaßiger wird es für die Forscherinnen und für die Forscher auch.
Größe allein macht aber keine Repräsentativität. Wenn zum Beispiel keine Schülerinnen und Schüler mit geistiger Behinderung in PISA vorkommen, dann können da eine Million Jugendliche drin sein – die Studie wird dadurch nicht repräsentativ für alle 15-Jährigen oder für das gesamte Bildungssystem. Wenn ich 1973699 Menschen befrage, wie barrierefrei sie München und Berlin finden und ich habe keine Behinderten in meiner Stichprobe, dann ist das nicht verboten und auch keine Straftt, aber wissenschaftlicher Unsinn – zumindest ist die Repräsentativität fragwürdig.
Nun weißt du, welche Fragen du stellen kannst, um rauszufinden, ob eine Studie zu recht durch die Medien gepeitscht wird:
- Soll die Studie statistisch repräsentativ sein, also eine Grundgesamtheit abbilden (quantitative Forschung, oft: Fragebogenerhebungen) oder soll sie inhaltlich repräsentativ sein, also einen Gegenstand in der Tiefe abbilden (qualitative Forschung, oft: Interviews oder Beobachtungen)
- Für wen soll die Studie repräsentativ sein, also wer ist die Grundgesamtheit oder was ist das Phänomen?
- Passt die Grundgesamtheit bzw. das Phänomen zur Fragestellung?
Und du weißt, wie viele Leute du für deine Abschlussarbeit brauchst:
- Für quantitative Studien ist die Antwort im Text und du hast sie sicher schon gefunden… sie gilt aber nur, wenn du in deiner Abschlussarbeit keine repräsentative Studie durchführst. Das ist (in der Regel) völlig okay – du musst es aber sagen. Wenn deine Stichprobe aus den Personen besteht, die du eben erreichen konntest – zum Beispiel Kommilitonen oder Lehrkräfte der Schule, wo du dein Praktikum machst, oder per Schneeball über WhatsApp – dann hast du eine anfallende Stichprobe, oder, Latein, eine ad-hoc-Stichrobe gezogen. Diese ist nicht zufällig! Denn auch wenn du die Leute bei WhatsApp nicht gezielt aussuchst, haben nicht alle Personen der Grundgesamtheit die gleiche Chance in deine Stichprobe zu kommen. Im Diskussionsteil reflektierst du das dann bitte und dann passt das schon.
- Für qualitative Studien gilt auch: Repräsentativität, also Sättigung wird in der Regel für eine Abschlussarbeit nicht erreicht. Dessen solltest du dir bewusst sein und es entsprechend im Diskussionsteil reflektieren. Ich finde 6 oder 7 Interviews, die ca. eine halbe Stunde dauern, eine schöne Zahl für eine Abschlussarbeit. Da ist aber auch die Methodik wichtig – wenn du grounded theory wählst, eher weniger, da sehr aufwändig, wenn du inhaltsanalytisch und teilweise sogar quantiativ vorgehst, gern mehr.
Es bleibt also dabei: Kommt drauf an…