Statistik

Statistik ist gar nicht so schwierig, wie man denkt. Hier erkläre ich Dir die 4 wichtigsten Konzepte, um zu verstehen, worum es bei Statistik eigentlich geht.

Konzept 1: Deskriptive und Inferenz-Statistik

Statistiker unterscheiden zwischen beschreibender bzw. deskriptiver und Inferenz-Statistik bzw. schliessender Statistik. Bei der deskriptiven Statistik geht es darum, zu beschreiben, wie die Daten in einer Statistik aufgebaut sind. Ein Beispiel dafür sind z. B. Statistiken, die man vom Fussball her kennt. Bei der Inferenz-Statistik wird hingegen erklärt, ob man aus den Daten irgendwelche Schlussfolgerungen treffen kann.

Untenstehend ist die Tabelle der 1. Deutschen Bundesliga am Ende der Saison 2021/22 abgebildet:

Statistik der Bundesliga
Deskriptive Statistik der Bundesliga: die „Bundesliga-Tabelle“.

Die Statistiker (und Fans) interessieren sich hier um Dinge wie:

  • Welche Mannschaft hat die meisten Punkte gesammelt (und wird deshalb Meister)?
  • Welche Mannschaft hat am wenigsten Punkte gesammelt (und steigt deshalb ab)?

Deskriptive Statistiker interessieren sich für die Extreme. Wir wollen wissen, wer am besten und wer am schlechtesten ist. Das Maximum ist ein Wert, der bei so einer Tabelle als erstes angekuckt wird. Dieser Wert entscheidet letztlich darüber, wer Meister wird. Aber auch der kleinste Wert, das Minimum, wird von vielen Fans angekuckt, weil dieser Wert das Tabellenschlusslicht betrifft. Und niemand will, dass die eigene Mannschaft auf dem letzten Platz ist und absteigen muss.

Im oberen Beispiel liegt das Maximum bei 77 Punkten, die der FC Bayern München erzielt hat. Das Minimum liegt bei 18 Punkte, die die SpVgg Greuther Fürth gesammelt hat. Wie so oft ist also Bayern München Tabellenerster und eine kleine Mannschaft wie Greuther Fürth steigt ab.

Konzept 2: Streuungsmaße und Lagemaße

Neben der Frage, wer Meister wird und wer absteigt, wollen die Fans auch wissen, wie weit ihr Lieblingsteam von der Meisterschaft oder von einem Abstiegsplatz entfernt ist. Wie groß ist der Abstand zur Tabellenspitze? Leute, die sich mit deskriptiver Statistik befassen, wollen also nicht nur wissen, wo die Extremwerte liegen. Sie wollen auch wissen, wie weit die einzelnen Werte voneinander entfernt sind. Hierbei spricht man von einem „Streuungsmaß“ .

Das einfachste Streuungsmaß, das wir berechnen können, ist die Spannweite oder Range. Die Range ist nichts anderes als die Differenz zwischen Maximum und Minimum. In unserem Beispiel wäre die Range 59 Punkte (77 – 18). So hoch ist die maximale Punktedifferenz zwischen zwei beliebigen Mannschaften. Natürlich gibt es noch weitere Streuungsmaße, aber die wollen wir erst im nächsten Abschnitt darauf zu sprechen kommen.

In der deskriptiven Statistik schaut man aber nicht nur auf Streuungsmaße, die uns ungefähr zeigen, wie weit die einzelnen Daten voneinander entfernt sind. Wir wollen auch wissen, wo das Zentrum der Werte liegt. Man will den „Durchschnitt“ kennen. Zur Berechnung dieses Durchschnitts gibt es verschiedene Methoden. Die Durchschnittswerte nennt man in der Statistik „Lagemaße“ .

Ein im Alltag oft genanntes Lagemaß ist der sog. „arithmetische Mittelwert“ , der oft als „Durchschnitt“ bezeichnet wird. Berechnet wird der Durchschnitt als Summe aller Werte geteilt durch die Anzahl aller Werte wie in untenstehender Formel.

\(Mittelwert = \frac{Summe \mspace{12mu} aller \mspace{12mu} Werte}{Anzahl \mspace{12mu} der \mspace{12mu} Werte}\)

Will man z. B. wissen, wie viele Punkte jedes Team im Durchschnitt erzielt hat, muss man die Punkte aller Teams zusammenzählen und das Ergebnis dann durch die Anzahl Teams teilen. Nach untenstehender Berechnung erhalten wir dann einen Wert von 46.9 als durchschnittliche Anzahl Punkte aller Teams.

\(Durchschnittl. \mspace{12mu} Anzahl \mspace{12mu} Punkte = \frac{Punkte \mspace{12mu} aller \mspace{12mu} Teams}{Anzahl \mspace{12mu} Teams} \\ \mspace{263mu} = \frac{77 \mspace{12mu} + \mspace{12mu} 69 \mspace{12mu} + \mspace{12mu} 64 \mspace{12mu} + \mspace{12mu} … \mspace{12mu} + \mspace{12mu} 28 \mspace{12mu} + \mspace{12mu} 18}{18} \\ \mspace{263mu} = \frac{845}{18} = 46.9 \)

Konzept 3: Qualität von Lage- und Streuungsmaßen

Eine oft gegen die Berechnung von Durchschnittswerten gerichtete Kritik lautet: „wenn ich den Kopf auf den Heizkörper lege und die Füße ins Gefrierfach, dann habe ich im Durchschnitt eine angenehme Umgebungstemperatur von 20 Grad“. Diese Kritik an Durchschnittswerten ist nicht unberechtigt. Bei der Berechnung von Mittelwerten geht die Tatsache unter, dass die Temperatur deutlich höher (und ebenso deutlich tiefer) sein kann, als eben dieser Mittelwert. Die 60 Grad Hitze der Heizung lassen die -20 Grad Kälte des Gefrierfachs verschwinden, so dass man annehmen kann, dass überall angenehme 20 Grad vorherrschen.

Der Mittelwert wird von Extremwertern (sog. „Ausreissern“) stark beeinflusst. Aus diesem Grund haben Statistiker*innen noch ein anderes Lagemass erfunden, das gegen Ausreisser robust ist: der Median. Wie wird dieser berechnet? Dies geschieht in folgenden Schritten:

  • Sortiere die Werte nach dem zu beobachtenden Merkmal in aufsteigender Reihenfolge. In der Bundesliga-Tabelle muss man also alle Teams nach Punktzahl sortieren. Unsere Bundesliga-Tabelle ist glücklicherweise bereits nach Punktzahl der Teams sortiert.
  • Ermittle die Anzahl Werte in den Daten und bestimme, ob sie gerade oder ungerade sind. Wir wissen, dass unsere Bundesliga-Tabelle 18 Teams hat. Wir haben es mit einer geraden Anzahl Werten zu tun.
  • Bei gerader Anzahl Werte: Nimm den obersten Wert der untern Hälfte und den untersten Wert der oberen Hälfte. Zähle die beiden Werte zusammen und teile sie durch 2. In unserer Bundesliga-Tabelle ist der unterste Wert der oberen Hälfte das Team auf Rang 9. Dieses ist „TSG 1899 Hoffenheim“ und ihr Punktestand beträgt 46.
    Der oberste Wert der unteren Hälfte ist das Team auf Rang 10. Das ist „Borussia Mönchengladbach“. Dieses Team hat 45 Punkte.
    Der Median ist nun nichts anderes als der Durchschnitt der Punkte der beiden Teams.
    \(Median = \frac{Punkte \mspace{12mu} Team \mspace{12mu} 9. \mspace{12mu} Stelle \mspace{12mu} + \mspace{12mu} Punkte \mspace{12mu} Team \mspace{12mu} 10. \mspace{12mu} Stelle}{2} \)

    \(Median = \frac{46 \mspace{12mu} + \mspace{12mu} 45}{2} = 45.5 \)
    Folglich beträgt der Median 45.5 Punkte.

    Bei ungerader Anzahl Werte: Beginne beim untersten Wert und lies den Wert in der „Mitte“ ab. Die „Mitte“ erhält man, wenn man die Anzahl Werte durch 2 teilt und das Ergebnis dann aufrundet. Hätte die Bundesligatabelle z. B. 19 Teams, müsste man 19 durch 2 teilen und dann aufrunden. Das Ergebnis ist 10. Angenommen das 19. Team wäre auf dem letzten Platz. Dann ist der Median nichts anderes als der Punktwert des Teams an 10. Stelle. In diesem Fall wäre das „Borussia Mönchengladbach“ mit 45 Punkten. Der Median wäre dann 45 Punkte.
  • Wir beginnen beim untersten Team mit 18 Punkten. Also gehen wir um 9 Positionen nach oben. Dann lesen wir den Punktestand vom Team auf Rang 9 ab. Dieses ist „TSG 1899 Hoffenheim“ und ihr Punktestand beträgt 46.

Angenommen der FC Bayern München hätte statt 77 Punkte 2 Mio. Punkte erzielt (wir lassen jetzt mal außer Acht, dass das gar nicht möglich ist). Der Mittelwert würde sich dann um weit über 100’000 Punkte erhöhen. Doch was würde sich dann am Median ändern? Die Antwort ist: rein gar nichts! Denn das Team an 9. Stelle hätte immer noch 46 Punkte und das Team an 10. Stelle hätte weiterhin 45 Punkte. Der Median bleibt gleich. Darum gilt der Median als robust gegen Ausreißer.

Neben dem Median gibt es noch ein weiteres Lagemass. In der Bundesliga-Tabelle fällt auf, dass gleich drei Mannschaften je 42 Punkte erzielt haben.

Der Wert „42“ kommt also in der Tabelle am häufigsten vor. Der Wert, der am häufigsten erzielt wurde, nennt man „Modus“ . Als Lagemaß macht der Modus vor allem bei Umfragen mit mehreren Antwortmöglichkeiten Sinn.

Konzept 4: Varianz und Standardabweichung

Das wichtigste Streuungsmaß ist die Varianz. Bei der Varianz geht es darum, festzustellen, wie stark die einzelnen Werte vom arithmetischen Mittelwert abweichen. Es geht also darum, festzustellen, ob überall angenehme 20 Grad vorherrschen oder ob man den Kopf auf dem Heizkörper bzw. die Füße im Gefrierfach hat.

Nehmen wir folgende Tabelle. Sie zeigt die Temperatur je nach Körperposition, wenn man den Kopf (Position 1) auf dem Heizkörper und die Füße (Position 6) im Gefrierfach hat.

PositionTemperaturMittelwert 23 °C
155 °C23 °C
244 °C23 °C
335 °C23 °C
420 °C23 °C
510 °C23 °C
6-26 °C23 °C

In der nachfolgenden Grafik sind die einzelnen Messpunkte je nach Körperposition eingezeichnet. Der Mittelwert von 23 °C ist als rote Linie eingezeichnet.

Die Varianz sollte ein Streuungsmaß sein, das die „durchschnittliche Entfernung“ dieser Punkte zur roten Linie misst. Ist die Entfernung groß, wissen wir, dass einige Punkte weit entfernt vom Durchschnitt sein können.

Bei der Varianz will man eigentlich die durchschnittliche Distanz der einzelnen Messwerte zum Mittelwert erfassen. Doch wie bewerkstelligt man das? Intuitiv könnten wir ja einfach mal die Distanzen aller Punkte zum Mittelwert messen und diese zusammenzählen und durch die Anzahl Werte teilen.

Das Problem dabei ist, dass für Punkte, die unter dem Mittelwert liegen, diese Distanzen negativ werden während sie für Punkte, die oberhalb des Mittelwerts liegen genau positiv sind. Zählt man dann alle Distanzen zusammen ergibt sich immer die Summe 0. Die Varianz wäre dann immer gleich 0. Es muss also eine bessere Lösung geben, um die Varianz zu messen.

Um das Problem zu vermeiden, dass negative Distanzen zum Mittelwert quadriert man die Distanz zum Mittelwert für alle Messpunkte. So können keine negativen Werte entstehen und die Summe der quadrierten Distanzen ist immer größer als 0. Die Varianz wird dann gemäß folgender Formel berechnet:

\(Varianz = \frac{Quadrierte \mspace{12mu} Summe \mspace{12mu} der \mspace{12mu} Mittelwertsdistanzen}{Anz. \mspace{12mu} Werte}\)

In unserem Beispiel beträgt die Varianz 698. Das Problem ist, dass wir für die Berechnug der Varianz die Distanzen der Punkte zum Mittelwert quadriert haben. Die Maßeinheit für die Varianz wäre dann nicht mehr °C, sondern °C2.

\(Varianz = \frac{(55 – 23)^{2}+(44 – 23)^{2}+(35 – 23)^{2} + (20 – 23)^{2} + (10 – 23)^{2} + (-26 – 23)^{2}}{6}\\ \mspace{67mu} = 698\)

Wir wollen aber wissen, um wie viel °C jeder Messpunkt vom Mittelwert „im Durchschnitt“ abweicht. Zu diesem Zweck haben Statistiker die sog. „Standardabweichung“ erfunden. Dabei handelt es sich um die Quadratwurzel der Varianz.

In unserem Beispiel beträgt die Standardabweichung ungefähr 26.4 °C, was schon ein ziemlich heftiger Temperaturunterschied ist. Eine große Standardabweichung zeigt an, dass eine Situation der Marke „Kopf auf dem Heizkörper, Füße im Gefrierfach“ vorliegt. Statistik-Profis wissen, dass in diesem Fall der Durchschnitt tatsächlich wenig Aussagekraft hat. Ist die Standardabweichung hingegen nahe bei 0, orientieren sich alle Messungen am Durchschnitt.

Statistiker interessieren sich deshalb oft für Durchschnitte. Doch sie berechnen auch Streuungsmaße wie die Varianz und die Standardabweichung. Mithilfe dieser Lage- und Streuungsmaße können sie Aussagen darüber treffen, wie sich die Daten verteilen. Bei einer Bundesliga-Tabelle können Statistiker z. B. berechnen, wie viele Tore ein Team im Durchschnitt geschossen hat. Sie können aber auch die Standardabweichung berechnen, um zu verstehen, ob es grosse Unterschiede zwischen den Teams gibt.

Fazit: Statistik ist nicht schwer

Du siehst: Statistik verstehen ist nicht schwer. Man muss nur verstehen, ob man etwas beschreiben will, oder ob man Schlussfolgerungen treffen will. Statistiker berechnen normalerweise Durchschnittswerte, Mediane und andere Lagemaße. Um deren Aussagekraft zu beurteilen, werten sie auch Streuungsmaße wie die Varianz, die Range und die Standardabweichung aus. Mithilfe der Lage- und Streuungsmaße können sie in der deskriptiven Statistik beschreiben, wie die Daten verteilt sind.

Im nächsten Artikel beschreibe ich, wie Du eine statistische Analyse mit Python ausführen kannst.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert