pandas baut auf numpy auf und vereinfacht stark die Bearbeitung, Transformation, Aggregation und Zusammenfassung von zweidimensionalen Datensätzen sowie deren Import und Export in Python. Die zentralen Datenstrukturen in pandas sind Series
und DataFrame
.
Series
sind eindimensionale Listen eines Datentypes, ähnlich wie array
s in numpy. Datentypen können ganzzahlige Zahlen (int
), binäre Werte vom Typ true
oder false
(bool
), Strings (str
) oder reale Zahlen (float
) sein.
In einem DataFrame
werden mehrere Series
gleicher Länge spaltenweise zu einer zweidimensionalen Tabelle (wie einer Excel Tabelle) zusammengefasst. Ein DataFrame
besitzt außerdem auch immer Spalten- und Zeilennamen.
Wie auch numpy, bietet pandas darüber hinaus viele Funktionen aus der Statistik zum Beschreiben von Daten. Eine Übersicht gibt es hier.
# import the library and give it a shorter name 'pd'
import pandas as pd
# create a dataframe by hand with two columns and three rows
df = pd.DataFrame({
'month': [1, 2, 3],
'temperatur': [-12, 3, 9]
})
# print out some descriptive statistics
df.describe()
describe()
?