Series und DataFrames sind die zentralen Datenstrukturen in Pandas. Series sind wie standardmäßige Listen in Python, mit dem wichtigen Unterschied, dass Series nur Werte eines einzelnen Datentyps enthalten können.
import pandas as pd
x = pd.Series([34, 12, 23, 45])
print(x)
x.dtype
Ein Datentyp ist die grundlegende Einheit, in der einzelne Werte in einer Programmiersprache vom Computer gespeichert und verarbeitet werden können. Beispiele für Datentypen in pandas sind: float für Gleitkommazahlen, int für Ganzzahlen, bool für binäre True, False Werte oder datetime für Datumswerte. Text wird im pandas-spezifischen Format object abgespeichert. Für einen DataFrame der beispielsweise in einer Variable mit dem Namen df gepeichert ist, kannst Du Dir die Datentypen jeder Spalte mit df.dtypes ausgeben lassen.
Ein DataFrame fasst mehrere Series gleicher Länge zu einer Datentabelle mit Zeilen (Beobachtungen), Spalten (Variablen) und Spaltennamen (Variablennamen) zusammen.
Ein reguläres Python-Dictionary mit den Spaltennamen als Keys und den Values in Form von Python-Listen kann in ein DataFrame transfomiert werden:
import pandas as pd
data = {'month': ['Jan', 'Feb', 'Mar'],
'temp': [-5, 2, 3],
'below_zero': [True, False, False]}
df = pd.DataFrame(data)
print(df)
In der praktischen Datenanalyse wirst Du nur selten DataFrames oder Series manuell erstellen, sondern im Computer abgespeicherte Datentabellen aus anderen Formaten, wie Excel oder .csv einlesen.
('Apr', 5, False)year mit den Werten (2020, 2020, 2020, 2020)