Für metrische Variablen beschreiben Lagemaße die Zentralität einer Verteilung.
Wir werden uns hier auf die Lagemaße Mittelwert, Median und Quantil beschränken.
Das bekannteste Lagemaß ist der empirische Mittelwert (arithmetisches Mittel):
$$ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i = \frac{x_1 + x_2 + \dots + x_n}{n} $$
Denk wieder an das Beispiel Wahlumfrage, wo $x_1, \dots, x_n$ die Beobachtungen beschreiben. Dabei stellt $n$ die Anzahl der Beobachtungen dar und $x_i$ beschreibt die Beobachtung an der i-ten Stelle.
Hier ein Beispiel aus unserem Datensatz:
import pandas as pd
df = pd.read_csv("../data/Library_Usage.csv")
df['Total Checkouts'].mean()
Eine zweite wichtige Statistik ist der Median. Er ergibt sich aus dem Wert der Beobachtung, die die nach der Größe geordnete Messreihe in genau zwei gleich große Teile teilt. Für eine gerade Anzahl an Beobachtung wird der Mittelwert der zwei Beobachtungen an den Stellen $n/2$ und $n/2+1$ genommen:
$$ x_{0.5} = \begin{cases} x_{(n+1)/2}~, \text{ n ungerade} \\ \frac{x_{n/2} + x_{n/2+1}}{2}~, \text{ n gerade} \end{cases} $$ für $x_1 < x_2 < \dots < x_n$.
Beispiel: Für $x=[8, 10, 11, 30]$ ist die Anzahl der Beobachtungen $n=4$ gerade und der Median wird berechnet mit $\frac{x_2 + x_3}{2} = \frac{10+11}{2} = 10.5$.
df['Total Checkouts'].median()
Total Checkouts
an. Warum sind die beiden Werte so unterschiedlich?Wenn Dir nach der Aufgabe zum Mittelwert und Median die Begriffe noch nicht klar sind und Dich die oberen Formeln sehr abschrecken, kann es auch manchmal hilfreich sein, sich diese Statistiken mit einfachen Beispielen aus der Schule erklären zu lassen.
Empfehlenswert sind hierzu die Videos von Lehrerschmidt auf Youtube.
Versuche im Anschluss anhand der einfachen Beispiele, die oberen Formeln nachzuvollziehen.
Wir haben schon den Median als Lageparameter kennengelernt, dieser wird auch als $x_{0.5}$ bezeichnet. Er teilt die geordnete Verteilung in zwei genau gleich große Teile. Allgemeiner lassen sich dazu die Quantile definieren: $x_{0.75}$ teilt die geordnete Verteilung im Verhältnis 3:1. Das heißt, dass 75% der Beobachtungen kleiner als $x_{0.75}$ und 25% größer sind. Das $x_{0.25}$ Quantil teilt die Reihe im Verhältnis 1:3. Hier sind 25% der Beobachtungen kleiner und 75% größer als der Wert $x_{0.25}$.
df['Total Checkouts'].quantile(q=[0.25, 0.5, 0.75])
Um Ausreißer in einer Variablen zu entfernen bzw. zu ersetzen, bietet es sich manchmal an, die größten (und oder kleinsten) $\alpha\%$ Beobachtungen zu identifizieren:
# identifies 0.5% of the data at both ends of the distribution
alpha = 0.005
df['Total Checkouts'].quantile([alpha, 1-alpha])
Total Checkouts
. Definiere diese Werte als Ausreißer.