Musterlösungen

3. Deskriptive Statistik und Visualisierungen

3.1 Häufigkeiten

3.2 Mittelwert und Median

Der Median ist robust gegenüber Ausreißern, da er nicht auf den absoluten sondern nur auf der relativen Reihung der Beobachtungen basiert. Wird beispielsweise der größte Wert einer Messreihe um den Faktor 1000 tausend vergrößert, so ändert sicht der Median nicht.

Der Mittelwert hingegen basiert auf den absoluten Werten. Da die Variable Total Checkouts einige wenige sehr große Ausreißer enthält, ist der Mittelwert hier viel größer.

3.4 Varianz

3.6 Symmetrie und Schiefe

Von oben links nach unten rechts:

  • Bimodal, Symmetrisch
  • Unimodal, Linksschief/ Rechtssteil
  • Unimodal, Linksschief/ Rechtssteil
  • Unimodal, Rechtsschief/ Linkssteil
  • Kein Modus, Symmetrisch, Gleichverteilung
  • Unimodal, Linksschief/ Rechtssteil
  • Unimodal, Rechtsschief/ Linkssteil
  • Unimodal, Rechtsschief/ Linkssteil
  • Unimodal, Symmetrisch

Exkurs Ausreißerentfernung (Aufgaben 3.3, 3.5 und 3.7)

3.8 Exkurs: Anscombe-Quartett

3.9 Balkendiagramme bei Fox News

Die Balkendiagramme beginnen nicht im Nullpunkt. Somit werden die relativen Unterschiede viel größer dargestellt, als sie in Wahrheit sind.

Quiz

  • rechtsschief
  • df['Provided Email Address'][df['Age Range'] == '0 to 9 years'].sum() (überlege, was dieser Ausdruck liefert und setze ihn in Relation mit der Gesamtzahl der 0-9-jährigen)
  • df['Total Checkouts'].quantile(0.60)
  • df['Age Range'].mode()
  • df['Total Renewals'].quantile([0.25, 0.75]).diff()

Projektaufgabe - Beispielfragen