pandas

pandas baut auf numpy auf und vereinfacht stark die Bearbeitung, Transformation, Aggregation und Zusammenfassung von zweidimensionalen Datensätzen sowie deren Import und Export in Python. Die zentralen Datenstrukturen in pandas sind Series und DataFrame.

Series sind eindimensionale Listen eines Datentypes, ähnlich wie arrays in numpy. Datentypen können ganzzahlige Zahlen (int), binäre Werte vom Typ true oder false (bool), Strings (str) oder reale Zahlen (float) sein.

In einem DataFrame werden mehrere Series gleicher Länge spaltenweise zu einer zweidimensionalen Tabelle (wie einer Excel Tabelle) zusammengefasst. Ein DataFrame besitzt außerdem auch immer Spalten- und Zeilennamen.

Wie auch numpy, bietet pandas darüber hinaus viele Funktionen aus der Statistik zum Beschreiben von Daten. Eine Übersicht gibt es hier.

# import the library and give it a shorter name 'pd'
import pandas as pd

# create a dataframe by hand with two columns and three rows
df = pd.DataFrame({
        'month': [1, 2, 3],
        'temperatur': [-12, 3, 9]
})

# print out some descriptive statistics
df.describe()

1.5 pandas (15 Min)

  • Kopiere das obere Codebeispiel in ein Jupyter Notebook, speichere es in Deinem Projektordner und führe es aus.
  • Füge weitere Temperatur und Monats-Werte dem DataFrame hinzu.
  • Welche Statistiken liefert ein Aufruf der Funktion describe()?