Musterlösungen
3. Deskriptive Statistik und Visualisierungen
3.1 Häufigkeiten
3.2 Mittelwert und Median
Der Median ist robust gegenüber Ausreißern, da er nicht auf den absoluten sondern nur auf der relativen Reihung der Beobachtungen basiert. Wird beispielsweise der größte Wert einer Messreihe um den Faktor 1000 tausend vergrößert, so ändert sicht der Median nicht.
Der Mittelwert hingegen basiert auf den absoluten Werten. Da die Variable Total Checkouts
einige wenige sehr große Ausreißer enthält, ist der Mittelwert hier viel größer.
3.4 Varianz
3.6 Symmetrie und Schiefe
Von oben links nach unten rechts:
- Bimodal, Symmetrisch
- Unimodal, Linksschief/ Rechtssteil
- Unimodal, Linksschief/ Rechtssteil
- Unimodal, Rechtsschief/ Linkssteil
- Kein Modus, Symmetrisch, Gleichverteilung
- Unimodal, Linksschief/ Rechtssteil
- Unimodal, Rechtsschief/ Linkssteil
- Unimodal, Rechtsschief/ Linkssteil
- Unimodal, Symmetrisch
Exkurs Ausreißerentfernung (Aufgaben 3.3, 3.5 und 3.7)
3.8 Exkurs: Anscombe-Quartett
3.9 Balkendiagramme bei Fox News
Die Balkendiagramme beginnen nicht im Nullpunkt. Somit werden die relativen Unterschiede viel größer dargestellt, als sie in Wahrheit sind.
Quiz
- rechtsschief
pd.crosstab(df['Provided Email Address'],df['Age Range'],margins=True)
undpd.crosstab(df['Provided Email Address'],df['Age Range'],margins=True, normalize=1)
df['Total Checkouts'].quantile(0.60)
df['Age Range'].mode()
df['Total Renewals'].quantile([0.25, 0.75]).diff()