Streuungsmaße

Die Zentralität einer Verteilung (die durch Lagemaße beschrieben wird) ist nur eine wichtige Kennzahl. Streuungsmaße geben zusätzlich an, wie stark die Daten einer Messreihe schwanken. Die Streuung einer Variable ist entscheidend z.B. bei der Beurteilung mit welcher Wahrscheinlichkeit extreme Werte vorkommen können. Die bekanntesten Streuungsmaße sind die Varianz, die Standardabweichung und der Variantionskoeffizient.

Varianz

Die Distanz einer Beobachtung vom Mittelwert der zugrundeliegenden Variable wird Abweichung genannt. Der Mittelwert über die quadrierten Abweichungen wird als Varianz definiert:

$$ s^2_x = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 $$

Denk wieder an das Beispiel Wahlumfrage, wo $x_1, \dots, x_n$ die Beobachtungen beschreiben. Dabei stellt $n$ die Anzahl der Beobachtungen dar und $x_i$ beschreibt die Beobachtung an der i-ten Stelle. In der obigen Formel bezeichnet $\bar{x}$ den Mittelwert.

Angewendet auf unseren Datensatz für die Anzahl der Ausleihen:

df['Total Checkouts'].var()

Eine geringe Varianz bedeutet, dass sich die Werte, die die Variable annehmen kann, nur geringfügig vom Mittelwert unterscheiden. Das Quadrieren der Abweichungen hat zur Folge, dass das Vorzeichen verschwindet und das große Abweichungen mehr Gewicht erhalten. In der Formel wird durch $n-1$ anstatt durch $n$ geteilt. Dies ist theoretisch von Bedeutung, um einen unverzerrten Schätzer zu erhalten, es hat aber für große $n$ in der Praxis keine Auswirkungen ob man durch $n$ oder $n-1$ teilen.

Standardabweichung

Die Standardabweichungen ist die Wurzel der Varianz: $$ s_x = \sqrt{s_x^2} $$

df['Total Checkouts'].std()

Variationskoeffizient

Die absolute Größe der Varianz ist abhängig vom Mittelwert der Variablen. Ein Vergleich von Standardabweichungen verschiedener Variablen ist deswegen nicht sinnvoll. Möchte man die Streuung verschiedener Variablen vergleichen, macht es Sinn, eine normalisierte Größe, den Variationskoeffizienten zu betrachten:

$$ cv_x = \frac{s_x}{\bar{x}} $$

3.4 Varianz (15 Min)

Welche Variable streut mehr: 'Total Checkouts' oder 'Total Renewals'? Vergleiche die Standardabweichungen und den Variationskoeffizienten miteinander.


Weitere Steruungsmaße sind die Spannweite und der Interquartilabstand.

Spannweite

Die Spannweite ist die Differenz zwischen dem maximalen und minmalem Wert

df['Total Checkouts'].max() - df['Total Checkouts'].min()

Interquartilsabstand

Aus den Quantilen kann der Interquartilsabstand als robustes Streuungsmaß abgeleitet werden. Er ergibt sich aus der Differenz des 75%- zum 25%-Quantil: $$ x_{IQR} = x_{0.75} - x_{0.25} $$

df['Total Checkouts'].quantile(q=0.75) - df['Total Checkouts'].quantile(q=0.25)

3.5 Exkurs: Ausreißerentfernung II (30 Min)

  • Identifiziere positive Ausreißer in der Spalte Total Checkouts. Ausreißer werden jetzt als Beobachtungen $x_i$ definiert, für die gilt: $$ x_i > x_{0.75} + 1.5x_{IQR} $$ Das heißt, eine Beobachtungen gilt als Ausreißer, wenn sie größer als die Summe aus dem 75% Quantil und dem 1.5-fachen des Interquartilsabstands ist.
  • Wie viel Prozent der Beobachtungen im Datensatz werden mit dieser Methode als Ausreißer markiert?