Häufigkeiten

Kategoriale Variablen werden in Häufigkeitstabellen zusammengefasst. Dabei wird für jede Ausprägung die Anzahl der Beobachtungen gezählt:

import pandas as pd
df = pd.read_csv('../data/Library_Usage.csv',na_values="Null",
                 low_memory=False
                )
df['Age Range'].value_counts()

Mit der Funktion value_counts() kann man sich absolute Häufigkeitstabellen ausgeben lassen. Mit dem zusätzlichen Argumentaufruf normalize=True werden relative Häufigkeiten berechnet:

df['Age Range'].value_counts(normalize=True)

Der Modus sind dabei die Merkmalsausprägungen, die die meisten Beobachtungen besitzen:

age_mode = df['Age Range'].mode()
age_mode[0]

3.1 Häufigkeiten (20 Min)

Erstelle eine Häufigkeitsverteilung für die Variable 'Year Patron Registered'. Wieviel Prozent der Kunden wurden 2013 im System registriert? Wie viele in den kommenden Jahren? Was fällt Dir auf?
Wieviel Prozent der Kunden sind zwischen 25 und 34 Jahren?
Ersetze die fehlenden Werte in der Spalte Age Range durch den Modus dieser Spalte. Nutze dazu die Funktion DataFrame.fillna (siehe hier für die Dokumentation).
Denkst Du, es handelt sich dabei um eine gute Methode, fehlende Werte zu ersetzen? Welche anderen Strategien fallen Dir ein?