Häufigkeiten
Kategoriale Variablen werden in Häufigkeitstabellen zusammengefasst. Dabei wird für jede Ausprägung die Anzahl der Beobachtungen gezählt:
import pandas as pd
df = pd.read_csv('../data/Library_Usage.csv',na_values="Null",
low_memory=False
)
df['Age Range'].value_counts()
Mit der Funktion value_counts()
kann man sich absolute Häufigkeitstabellen ausgeben lassen. Mit dem zusätzlichen Argumentaufruf normalize=True
werden relative Häufigkeiten berechnet:
df['Age Range'].value_counts(normalize=True)
Der Modus sind dabei die Merkmalsausprägungen, die die meisten Beobachtungen besitzen:
age_mode = df['Age Range'].mode()
age_mode[0]
3.1 Häufigkeiten (20 Min)
- Erstelle eine Häufigkeitsverteilung für die Variable
'Year Patron Registered'
. Wieviel Prozent der Kunden wurden 2013 im System registriert? Wie viele in den kommenden Jahren? Was fällt Dir auf? - Wieviel Prozent der Kunden sind zwischen 25 und 34 Jahren?
- Ersetze die fehlenden Werte in der Spalte
Age Range
durch den Modus dieser Spalte. Nutze dazu die FunktionDataFrame.fillna
(siehe hier für die Dokumentation). - Denkst Du, es handelt sich dabei um eine gute Methode, fehlende Werte zu ersetzen? Welche anderen Strategien fallen Dir ein?