Series und DataFrames

Series und DataFrames sind die zentralen Datenstrukturen in Pandas. Series sind wie standardmäßige Listen in Python, mit dem wichtigen Unterschied, dass Series nur Werte eines einzelnen Datentyps enthalten können.

import pandas as pd
x = pd.Series([34, 12, 23, 45])
print(x)
x.dtype

Ein Datentyp ist die grundlegende Einheit, in der einzelne Werte in einer Programmiersprache vom Computer gespeichert und verarbeitet werden können. Beispiele für Datentypen in pandas sind: float für Gleitkommazahlen, int für Ganzzahlen, bool für binäre True, False Werte oder datetime für Datumswerte. Text wird im pandas-spezifischen Format object abgespeichert. Für einen DataFrame der beispielsweise in einer Variable mit dem Namen df gepeichert ist, kannst Du Dir die Datentypen jeder Spalte mit df.dtypes ausgeben lassen.

Ein DataFrame fasst mehrere Series gleicher Länge zu einer Datentabelle mit Zeilen (Beobachtungen), Spalten (Variablen) und Spaltennamen (Variablennamen) zusammen.

Ein reguläres Python-Dictionary mit den Spaltennamen als Keys und den Values in Form von Python-Listen kann in ein DataFrame transfomiert werden:

import pandas as pd
data = {'month': ['Jan', 'Feb', 'Mar'],
        'temp': [-5, 2, 3],
         'below_zero': [True, False, False]}
df = pd.DataFrame(data)
print(df)

In der praktischen Datenanalyse wirst Du nur selten DataFrames oder Series manuell erstellen, sondern im Computer abgespeicherte Datentabellen aus anderen Formaten, wie Excel oder .csv einlesen.

2.2 Skalenniveau und Datentypen (15 Min)

  • Welches Skalenniveau besitzen die Variablen im obigen Beispiel?
  • Sind die Variablen stetig oder diskret?
  • Was ist der Datentyp jeder einzelnen Spalte?
  • Erweitere das Python-Dictionary und
    • erstelle eine neue Zeile mit den Werten ('Apr', 5, False)
    • erstelle eine neue Spalte year mit den Werten (2020, 2020, 2020, 2020)