Repräsentativität - Welche Rolle spielt der Stichprobenumfang?
Beständig hält sich das Gerücht, dass die Frage der Repräsentativität primär mit dem Stichprobenumfang (häufig in der Statistik kurz als "n" bezeichnet) zusammenhängt.
Eine Professorin vertrat die Auffassung, dass eine Umfrage lediglich repräsentativ sein könne, sofern n mindestens 80 ist und ein Mitarbeiter einer Kommunikationsabteilung lehnte die Berichterstattung über eine Umfrage mit dem Hinweis ab, dass lediglich 400 Personen befragt wurden, er jedoch aus seiner Ausbildung wisse, dass Umfragen nur repräsentativ seien, wenn mindestens 1000 Personen befragt würden. Beide Aussagen resultieren aus einer Vermischung zweier unterschiedlicher Konzepte – Repräsentativität und Präzision. Bereits der gesunde Menschenverstand lehrt, dass ein größerer Stichprobenumfang mit mehr Informationen gleichzusetzen ist, also vorteilhaft sein muss. Allerdings hat dies wenig mit der Repräsentativität zu tun. Vielmehr führt der höhere Stichprobenumfang zu einer Reduktion des zufälligen Fehlers und somit zu einer höheren Präzision der Ergebnisse. Die Inferenzstatistik (unterer Pfeil in der Abbildung) bildet dies durch schmälere Konfidenzintervalle (höhere Genauigkeit der Aussagen) und eine steigende "Power" von Signifikanztests ab.
Ein Beispiel soll den Unterschied zwischen Repräsentativität und Präzision veranschaulichen: Zwischen 2001 und 2006 erregte im deutschsprachigen Raum die Online-Umfrage "Perspektive-Deutschland", die unter der Schirmherrschaft des ehemaligen Bundespräsidenten Richard von Weizsäcker stand und durch prominente Unternehmenspartner unterstützt wurde, großes Aufsehen. Die Umfrage widmete sich gesellschaftlichen und politischen Themen, die Grundgesamtheit bildete die deutsche Bevölkerung. In den beiden teilnehmerstärksten Wellen ab 2004 wurde der Fragebogen im Internet jeweils mehr als eine halbe Mio. Mal ausgefüllt. Gemessen an ca. 80 Mio. Bundesbürgern entspricht dies einem Rücklauf von ca. 0,625%. Verglichen mit dem bereits erwähnten Politbarometer des ZDFs liegt das Verhältnis zwischen Stichprobenumfang und Grundgesamtheit bei der Online-Befragung um mehr als den Faktor 100 besser. Dennoch erklärt das ZDF auf der Webseite zum Politbarometer, dass die Ergebnisse repräsentativ für die wahlberechtigte Bevölkerung seien, während die Verantwortlichen hinter "Perspektive-Deutschland" mit der Veröffentlichung der Ergebnisse darauf hinwiesen, dass die Online-Befragung nicht repräsentativ sei. Die für das Politbarometer gezogene Stichprobe wird unter Verwendung des sog. ADM-Verfahrens nach dem Prinzip der Zufallsauswahl aus dem ADM-Master-Sample gezogen. Trotz einiger praktischer Probleme (z.B. Beschränkung auf Festnetz-Anschlüsse, schlechtere Erreichbarkeit von Berufstätigen, unterschiedliche Teilnahmebereitschaft in bestimmten Subgruppen, etc.) kommt dieses Verfahren den methodischen Ansprüchen an eine Zufallsstichprobe sehr nahe. Die "Perspektive-Deutschland" rekrutierte einen Großteil der Teilnehmer über Hinweise im Internet, die zur Teilnahme an der Befragung aufriefen und die gesellschaftliche Relevanz des Themas als Anreiz hervorhoben. Eine echte "Ziehung" der Stichprobe wie beim ADM-Verfahren fand so im eigentlichen Sinne nie statt – vielmehr rekrutierte sich ein Großteil der Stichprobe durch Selbstselektion der Teilnehmer. In der Konsequenz ist die Stichprobe verzerrt: Insbesondere Personen mit hoher Affinität zu den angesprochenen Themen und Vielsurfer (die häufig mit den Hinweisen auf die Umfrage in Berührung kommen) sind in der Stichprobe stärker vertreten als in der Grundgesamtheit. Zum damaligen Zeitpunkt nutzten ältere Menschen das Internet zudem noch weniger als heute, so dass höhere Altersgruppen in der Stichprobe zu schwach bzw. kaum vertreten waren, obwohl angenommen werden kann, dass diese zu bestimmten Themen (z.B. Rente) andere Meinungen vertreten als jüngere Menschen. Fazit: Eine große Stichprobe hilft wenig, wenn sie nicht repräsentativ für die Grundgesamtheit ist, während eine kleine – aber methodisch ordentlich gezogene Stichprobe – auch bei kleinerem Stichprobenumfang dazu geeignet sein kann, brauchbare Ergebnisse abzuleiten, sofern die Ansprüche hinsichtlich der Präzision noch erfüllt werden.
Die folgende Tabelle verdeutlicht den Zusammenhang zwischen dem Stichprobenumfang und der Präzision der Ergebnisse. In dem Beispiel soll der Anteil der Wählerstimmen für eine größere Volkspartei basierend auf einer Zufallsstichprobe vom Umfang n aus der wahlberechtigten Bevölkerung geschätzt werden (ähnlich der "Sonntagsfrage"). Zur Quantifizierung der Unsicherheit ist neben dem Stichprobenumfang jeweils die Breite eines 95%-Konfidenzintervalls für den Wähleranteil angegeben. Das Konfidenzintervall ist ein Verfahren aus der Inferenzstatistik, welches einen Bereich ausweist, in dem der tatsächliche Wert aus der Grundgesamtheit mit großer Sicherheit liegt. Je schmäler das Intervall ist, desto präziser die Aussage. Der Berechnung liegt die Annahme zugrunde, dass der Wähleranteil der Partei in der Grundgesamtheit bei 30% liegt:
Stichprobenumfang | Genauigkeit: 95%-Konfidenzintervall als Abw. vom Anteil in der Stichprobe |
---|---|
n=10 | -23.3% bis +35.2% |
n=20 | -18.1% bis +24.3% |
n=50 | -12.1% bis +14.6% |
n=100 | -8.8% bis +10.0% |
n=200 | -6.3% bis +6.9% |
n=500 | -4.0% bis +4.2% |
n=1000 | -2.8% bis +2.9% |
n=2000 | -2.0% bis +2.1% |
n=5000 | |
n=10000 | |
n=100000 |
Die Tabelle zeigt, wie der Stichprobenumfang entsprechend den Anforderungen an die Genauigkeit der Ergebnisse und des Budgets festgelegt werden kann. Zu beachten ist, dass die Kosten i.d.R. fast proportional zum Stichprobenumfang steigen, während der Gewinn an Präzision mit wachsendem n immer geringer ausfällt (s. Abbildung unten). Wenn z.B. eine Genauigkeit von ± 2% als ausreichend angesehen wird, ist ein Stichprobenumfang von ca. 2000 hinreichend.