Kategoriale Variablen werden in Häufigkeitstabellen zusammengefasst. Dabei wird für jede Ausprägung die Anzahl der Beobachtungen gezählt:
import pandas as pd
df = pd.read_csv("../data/Library_Usage.csv")
df['Age Range'].value_counts()
Mit der Funktion value_counts()
kann man sich absolute Häufigkeitstabellen ausgeben lassen. Mit dem zusätzlichen Argumentaufruf normalize=True
werden relative Häufigkeiten berechnet:
df['Age Range'].value_counts(normalize=True)
Der Modus sind dabei die Merkmalsausprägungen, die die meisten Beobachtungen besitzen:
age_mode = df['Age Range'].mode()
age_mode[0]
'Year Patron Registered'
. Wieviel Prozent der Kunden wurden 2013 im System registriert? Wie viele in den kommenden Jahren? Was fällt Dir auf?Age Range
durch den Modus dieser Spalte. Nutze dazu die Funktion DataFrame.fillna
(siehe hier für die Dokumentation).