Statistische Grundlagen mit R: Streuungsmaße

Nachdem ich mich im ersten Teil meiner Serie “Statistische Grundlagen mit R” mit Maßen der zentralen Tendenz beschäftigt habe, erkläre ich heute die Bedeutung verschiedener Steuungsmaße.

Streuungsmaße

Um einen Datenvektor möglichst treffend zu beschreiben, reicht die Kenntnis der Zentralitätsmaße in der Regel nicht aus. Stellen wir uns z.B. vor, dass an einer Grundschule ein Altpapiersammelwettbewerb durchgeführt wird, bei dem die drei Schulklassen, die am meisten Papier gesammelt haben Preise bekommen: die erstplatzierte Klasse 100€, die zweitplatzierte Klasse 50€ und die drittplatzierte Klasse 20€. Wenn wir uns vorstellen, dass die erstplatzierte Klasse insgesamt 800 kg, die zweitplatzierte Klasse 700 kg und die drittplatzierte Klasse 600 kg gesammelt habt, würde uns die Vergabe der Preise im Großen und Ganzen gerecht erscheinen. Stellen wir uns hingegen vor, dass die erstplatzierte Klasse 701 kg, die zweitplatzierte Klasse genau 700 kg und die drittplatzierte Klasse 699 kg Papier gesammelt hat, erscheint die Preisvergabe weniger angemessen zu sein, weil die Unterschiede zwischen den gesammelte Altpapiermengen äußerst klein sind und möglicherweise sogar auf Messungenauigkeiten (beim Wiegen des Papiers) zurückzuführen sind. Berechnen wir den Mittelwert für beide Szenarien, sehen wir jedoch keinen Unterschied; beide Mittelwerte sind identisch:

mean(c(600, 700, 800)) == mean(c(699, 700, 701))
## [1] TRUE

Mit Streuungsmaßen lässt sich, wie der Name schon sagt, die Streuung bzw. Entfernung der einzelnen Datenpunkte von einem Zentralitätsmaß beschreiben.

Spanne

Das wohl einfachste Streuungsmaß ist die Spanne (engl.: Range). Diese lässt sich berechnen, indem man den kleinsten Wert vom größen des Datenvektors abzieht:

spanne1 <- 800 - 600
spanne2 <- 701 - 699

Obwohl beide Datenvektoren denselben Mittelwert haben, unterscheiden sich die Spannen deutlich (200 vs. 2). Die Spanne ist als Streuungsmaß allerdngs nur sehr eingeschränkt zu gebrauchen, weil sie sehr stark durch Extremwerte beeinflusst wird. So könnte man sich vorstellen, dass bei dem besagten Altpapiersammelwettbewerb 8 von 10 Schulklassen zwischen 400 und 500 kg Altpapier sammeln, eine Klasse 1.000 kg und eine Klasse überhaupt kein Papier. Obwohl die meisten Datenpunkte zwischen 400 und 500 kg liegen, nimmt die Spanne den Wert 1.000 (1.000 – 0) an.

Abweichungen vom Mittelwert

Eine weitere Möglichkeit zur Beschreibung der Streuung eines Datenvektors ist die Abweichung der einzelnen Datenpunkte vom Mittelwert aller Datenpunkte. Bezugnehmend auf unser Beispiel, weichen im ersten Szenario zwei von drei Datenpunkten um jeweils 100 kg vom Mittelwert ab, während der dritte Wert mit dem Mittelpunkt identisch ist. Bildet man die Summe dieser Abweichungen, erhalten wir das folgende Ergebnis:

-100 + 0 + 100
## [1] 0

Berechnet man die Streuung nach dieser Gleichung, muss diese zwangsläufig den Wert 0 ergeben, da sich positive und negative Differenzen gegenseitig aufheben. Um dies zu verhindern, ließen sich z.B. die absoluten Beträge der Differenzen aufaddieren. In der Statistik entledigt man sich des Minuszeichens jedoch durch eine Quadrierung der einzelnen Differenzen.

Summe der quatrierten Abweichungen

Die einzelnen quatrierten Differenzen werden zu einer Quadratsumme zusammengefasst. Für unsere beiden Szenarien der Altpapiersammelaktion lassen sich die Quadratsummen folgendermaßen berechnen:

(qs1 <- (-100)^2 + 0^2 + 100^2)
## [1] 20000
(qs2 <- (-1)^2 + 0^2 + 1^2)
## [1] 2

Als Streuungsmaß hat die Quadratsumme jedoch den Nachteil, dass ihr Betrag mit steigender Anzahl an Datenpunkten zunimmt.

Varianz

Um eine Abhängikeit des Streungsmaßes von der Anzahl der Datenpunkte zu verhindern, lässt sich die Summe der quatrierten Abweichungen durch die Anzahl der Datenpunkte (Beobachtungen) teilen. Mit dieser Gleichung haben wir die Varianz eines Datenvektors definiert. Um zu demonstrieren, wie sich die Varianz eines Datenvektors mit R berechnen lässt, kommen wir wieder auf unser Beispiel vom Altpapiersammelwettbewerb zurück:

altpapier <- c(600, 700, 800) # vgl. Szenario 1
(altpapier - mean(altpapier)) ^ 2 # Liste quatrierter Abweichungen vom Mittelwert
## [1] 10000     0 10000
sum((altpapier - mean(altpapier)) ^ 2) # Summe der quatrierten Abweichungen
## [1] 20000
(varianz <- sum((altpapier - mean(altpapier)) ^ 2) / length(altpapier)) # Teile durch Anzahl der Beobachtungen
## [1] 6666.667

Standardabweichung

Die Interpretation der Varianz gestaltet sich jedoch schwierig, da sie die Einheiten des Datenvektors (in unserem Beispiel Kilogramm) quatriert widergibt. So hat der Vektor altpapier eine Varianz von etwa 6666.7 kg². Um die Standardabweichung zu berechnen, braucht man nun nur noch die Quatratwurzel der Varianz ziehen:

sqrt(varianz)
## [1] 81.64966

Im Gegensatz zur Varianz, hat die Standardabweichung dieselbe Einheit wie der Datenvektor, in unserem Fall etwa 81.6 kg (Szenario 1) und 0.816 kg (Szenario 2).

Empfohlene Literatur

  • Jeffrey M. Stanton, Reasoning with Data: An Introduction to Traditional and Bayesian Statistics Using R, Guilford Press: 2017.

About norbert

Biometrician at Clinical Trial Centre, Leipzig University (GER), with degrees in sociology (MA) and public health (MPH).
This entry was posted in Indroduction and tagged . Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.