pandas
pandas baut auf numpy auf und vereinfacht stark die Bearbeitung, Transformation, Aggregation und Zusammenfassung von zweidimensionalen Datensätzen sowie deren Import und Export in Python. Die zentralen Datenstrukturen in pandas sind Series
und DataFrame
.
Series
sind eindimensionale Listen eines Datentypes, ähnlich wie array
s in numpy. Datentypen können ganzzahlige Zahlen (int
), binäre Werte vom Typ true
oder false
(bool
), Strings (str
) oder reale Zahlen (float
) sein.
In einem DataFrame
werden mehrere Series
gleicher Länge spaltenweise zu einer zweidimensionalen Tabelle (wie einer Excel Tabelle) zusammengefasst. Ein DataFrame
besitzt außerdem auch immer Spalten- und Zeilennamen.
Wie auch numpy, bietet pandas darüber hinaus viele Funktionen aus der Statistik zum Beschreiben von Daten. Eine Übersicht gibt es hier.
# import the library and give it a shorter name 'pd'
import pandas as pd
# create a dataframe by hand with two columns and three rows
df = pd.DataFrame({
'month': [1, 2, 3],
'temperatur': [-12, 3, 9]
})
# have a look at df
df
# print out some descriptive statistics
df.describe()
1.5 pandas (15 Min)
- Kopiere das obere Codebeispiel in ein Jupyter Notebook, speichere es in Deinem Projektordner und führe es aus.
- Füge weitere Temperatur- und Monats-Werte dem DataFrame hinzu.
- Welche Statistiken liefert ein Aufruf der Funktion
describe()
?