Häufigkeiten
Kategoriale Variablen werden in Häufigkeitstabellen zusammengefasst. Dabei wird für jede Ausprägung die Anzahl der Beobachtungen gezählt:
import pandas as pd
df = pd.read_csv('../data/Library_Usage.csv',na_values="Null",
low_memory=False
)
df['Age Range'].value_counts()Mit der Funktion value_counts() kann man sich absolute Häufigkeitstabellen ausgeben lassen. Mit dem zusätzlichen Argumentaufruf normalize=True werden relative Häufigkeiten berechnet:
df['Age Range'].value_counts(normalize=True)Der Modus sind dabei die Merkmalsausprägungen, die die meisten Beobachtungen besitzen:
age_mode = df['Age Range'].mode()
age_mode[0]3.1 Häufigkeiten (20 Min)
- Erstelle eine Häufigkeitsverteilung für die Variable
'Year Patron Registered'. Wieviel Prozent der Kunden wurden 2013 im System registriert? Wie viele in den kommenden Jahren? Was fällt Dir auf? - Wieviel Prozent der Kunden sind zwischen 25 und 34 Jahren?
- Ersetze die fehlenden Werte in der Spalte
Age Rangedurch den Modus dieser Spalte. Nutze dazu die FunktionDataFrame.fillna(siehe hier für die Dokumentation). - Denkst Du, es handelt sich dabei um eine gute Methode, fehlende Werte zu ersetzen? Welche anderen Strategien fallen Dir ein?