Grundlage der statistischen Analyse sind Datentabellen: Jede Zeile der Tabelle entspricht einer Beobachtung. Jede Spalte entspricht einer statistischen Variable. Neue Beobachtungen und Variablen können dadurch einfach an die schon bestehende Tabelle angefügt werden.
Wenn es um Statistik und Programmierung geht werden mit “Variable” oft zwei unterschiedliche Dinge benannt:
Am Beginn jeder statistischen Analyse steht die Aufbereitung und Bereinigung der Daten. Damit ist die Behandlung von fehlenden oder falsch kodierten Werten, die Umkodierung und Transformation von statistischen Variablen oder die Berechnung neuer Spalten gemeint. Oft sind auch nur Untergruppen von Beobachtungen mit bestimmten Merkmausausprägungen von Interesse.
Viele statistische Methoden erfordern auch, dass die Daten nur als numerische Werte vorliegen. Daher müssen ordinale oder nominale Variablen, die als Text gespeichert sind (zum Beispiel ['male', 'female', 'female', ...]
) in entsprechende numerische Werte umkodiert werden. Dabei wird jeder Kategorie ein numerischer Wert zugeordnet.
Das Standard-Paket um mit Datentabellen in Python zu arbeiten, ist pandas
. Das folgende Kapitel stellt anhand von vielen praktischen Beispielen und Übungen die grundlegenden Konzepte in pandas
vor.
./notebooks
mit dem Namen pandas_introduction.ipynb
.Deine Verzeichnisstruktur vom Projektordner sollte jetzt ungefähr so aussehen:
Module_3
├── data
│ └── Library_Usage.csv
├── notebooks
│ ├── pandas_introduction.ipynb
│ └── example_jupyter.ipynb
Dieses Cheat-Sheet gibt einen guten Überblick über die Datenverarbeitung mit Pandas.