Wie groß ist die Stichprobengröße des Datensatzes? 437115.
Wer oder was sind die Merkmalsträger? Bibliothekskunden der SF Public Library.
Von wann bis wann wurden die Daten erhoben? Das Bibliothekssystem wurde 2003 installiert. Die Daten reichen bis 2023.
Wie lässt sich die Grundgesamtheit beschreiben? Handelt es sich um eine Vollerhebung? Grundgesamtheit sind alle Bibliothekskunden der San Francisco Library. Wahrscheinlich handelt es sich um eine Vollerhebung. Es lässt sich diskutieren, ob die Grundgesamtheit größer gefasst werden kann (z.B. alle Kunden von Bibliotheken in den USA oder alle Kunden von öffentlichen Bibliotheken). Sind die Daten repräsentativ für diese Grundgesamtheiten?
Welche Merkmale sind stetig? Welche diskret? Die Variablen Total Checkouts und Total Renewals sind stetig, alle anderen diskret.
Welchem Skalenniveau entsprechen die einzelnen Merkmale (Nominal-, Ordinal- oder Metrische Skala)? Metrisch: Total Checkouts, Total Renewals, Circulation Active Year, Year Patron registered, Ordinal: Age Range, Nominal: Der Rest.
Enthält der Datensatz fehlende Werte? Ja, z.B. Age Range
Handelt es sich um Querschnitts-, Längsschnitss- oder Paneldaten? Querschnittsdaten
2.2 Skalenniveau und Datentypen
month: nominal (oder ordinal, wenn z.B. Dez > Jan gilt.), diskret, object
In Linux kann z.B. mit dem free Kommando der freie Speicherplatz ermittelt werden. Bei 8 Gigabyte Arbeitsspeicher werden ca. 3 Gigabyte vom System verbraucht.
5 Gigabyte sind 5 000 000 000 Bytes. Somit können theoretisch 625 000 000 Zahlen vom Typ int64 eingelesen werden.
Eine Tabelle mit 100 Variablen kann somit 6.25 Millionen Beobachtungen enthalten.
Der Library Datensatz verbraucht ca. 220 Megabyte im Arbeitsspeicher (df.info(memory_usage='deep')).