Series und DataFrames sind die zentralen Datenstrukturen in Pandas. Series
sind wie standardmäßige Listen in Python, mit dem wichtigen Unterschied, dass Series
nur Werte eines einzelnen Datentyps enthalten können.
import pandas as pd
x = pd.Series([34, 12, 23, 45])
print(x)
x.dtype
Ein Datentyp ist die grundlegende Einheit, in der einzelne Werte in einer Programmiersprache vom Computer gespeichert und verarbeitet werden können. Beispiele für Datentypen in pandas
sind: float
für Gleitkommazahlen, int
für Ganzzahlen, bool
für binäre True
, False
Werte oder datetime
für Datumswerte. Text wird im pandas-spezifischen Format object
abgespeichert. Für einen DataFrame
der beispielsweise in einer Variable mit dem Namen df
gepeichert ist, kannst Du Dir die Datentypen jeder Spalte mit df.dtypes
ausgeben lassen.
Ein DataFrame
fasst mehrere Series
gleicher Länge zu einer Datentabelle mit Zeilen (Beobachtungen), Spalten (Variablen) und Spaltennamen (Variablennamen) zusammen.
Ein reguläres Python-Dictionary mit den Spaltennamen als Keys und den Values in Form von Python-Listen kann in ein DataFrame
transfomiert werden:
import pandas as pd
data = {'month': ['Jan', 'Feb', 'Mar'],
'temp': [-5, 2, 3],
'below_zero': [True, False, False]}
df = pd.DataFrame(data)
print(df)
In der praktischen Datenanalyse wirst Du nur selten DataFrames
oder Series
manuell erstellen, sondern im Computer abgespeicherte Datentabellen aus anderen Formaten, wie Excel oder .csv
einlesen.
('Apr', 5, False)
year
mit den Werten (2020, 2020, 2020, 2020)