In der Statistik geben Verteilungen an, wie wahrscheinlich oder häufig eine bestimmte Merkmausausprägung oder eine Kombination von Merkmausausprägungen ist. Univariate Verteilung beschreiben dabei die Wahrscheinlichkeiten einer einzelnen statischen Variablen, während bivariate oder multivariate Verteilungen sich auf zwei oder mehr Variablen beziehen.
Empirische Verteilungen beziehen sich dabei auf die Häufigkeiten in beobachtbaren Daten während theoretische Verteilungen mathematische Funktionen sind, die meist von einigen wenigen Parametern abhängen.
Statistiken wie der Mittelwert oder die Varianz dienen der Beschreibung und Charakterisierung von Verteilungen mittels einiger weniger aussagekräftigen Kennzahlen. Dabei gibt es Statistiken, die oft nur auf Variablen eines bestimmten Skalenniveaus (kleine Erinnerung) anwendbar sind.
Kategoriale Variablen (nominale und ordinale Variablen), werden typischerweise in Häufigkeitstabellen zusammengefasst. Wichtige Kennzahlen für metrische Variablen sind hingegen u.a. die zentrale Lage, Streuung und die Symmetrie.
Nach diesem Kapitel solltest Du die folgenden Fragen beantworten können:
pandas
-Funktionen ausrechnen?Im Folgenden werden mit $x = x_1, \dots, x_n$ eine (univariate) Reihe von Beobachtungen beschrieben. Dabei stellt $n$ die Anzahl der Beobachtungen dar und $x_i$ beschreibt die Beobachtung an der i-ten Stelle.
Beispiel Wahlumfrage: Es werden zufällig n=100 Personen aus dem Wahlregister gezogen und nach nach ihren Parteipräferenzen befragt. Eine Beobachtung $x_i$ stellt dabei die Charakteristiken einer befragten Person $i$ dar (neben der Parteipräferenz können das allgemeine beschreibende Daten sein wie Alter, Geschlecht, etc.)