Data formats (German)
Note: This is the German version of this entry. The original, English version can be found here: Data formats. This entry was translated using DeepL and only adapted slightly. Any etymological discussions should be based on the English text.
Datenformate in der Statistik
Das Format Ihrer Daten beeinflusst alles Andere, was Sie im weiteren Verlauf tun. Um ein Sprichwort zu paraphrasieren: Die Daten haben ein Format, und das Format sind die Daten. Deshalb ist es wichtig zu wissen, welche verschiedenen Datenformate es gibt, und wie diese von Vorteil sein können, und wo Sie auf Fallstricke stoßen können. Weitere Informationen zu verschiedenen Messmethoden finden Sie im Eintrag To Rule And To Measure (German).
Ein Beispiel für verschiedene Datenformate
Stellen Sie sich vor, Sie wollen Ihre Ernährung tracken. Viele Menschen tun dies heute, es gibt überall Diätbücher und -ratgeber, viele Informationen sind verfügbar geworden. Nun möchten Sie damit beginnen und sich mit dem, was Sie essen, besser vertraut machen. Wie würden Sie anfangen? Mit dem Zählen von Kalorien? Unterscheiden Sie zwischen Kohlenhydraten, Fett und Grünzeug? Vielleicht zählen Sie einfach jedes Mal, wenn Sie eine Pizza gegessen haben? Oder Eiscreme? Oder zu viel? Es gibt viele Möglichkeiten, Ihre Ernährung zu messen. Und diese Messungen können in verschiedenen Datenformaten erfolgen.
Kontinuierliche Daten
Wir alle sind mit kontinuierlichen Zahlen vertraut. Ein Großteil unserer Gesellschaft wird von diesen Zahlen beherrscht, und daher wird ein Großteil der in der Statistik analysierten Daten durch kontinuierliche Zahlen dargestellt. Da ein Großteil der modernen Messungen innerhalb eines vorgegebenen Systems automatisiert ist, müssen wir uns oft nicht allzu viele Gedanken darüber machen, wie die Daten aussehen. Nehmen Sie zum Beispiel Gewicht oder Größe. Innerhalb von Mitteleuropa wird dies eindeutig in Gramm oder Kilogramm bzw. in Zentimetern oder Metern gemessen. Wenn Sie jedoch in die USA ziehen, wird es eine ganz andere Geschichte, wegen des metrischen Systems, oder eher dessen mangelnder Nutzung. Plötzlich sind Sie einige Fuß groß und wiegen vielleicht einige "stones". Es gibt viele verschiedene Messsysteme, und man muss sich bewusst sein, wie diese genutzt werden. Nehmen Sie die Temperatur, die ich in Celsius messen würde. Meine Freunde aus den USA sind jedoch auf Fahrenheit festgelegt, was für mich völlig kontraintuitiv ist. Ich denke, die Tatsache, dass Wasser bei 0°C gefriert und bei 100°C kocht, macht Celsius fast göttlich; aber wenn man sich die niedrigste mögliche Temperatur (-273 °C) ansieht, zeigt sich schon, dass Celsius vielleicht doch nicht so göttlich ist. Diese Systeme sind also Konstrukte, und diese Konstrukte bauen auf kontinuierlichen Zahlen auf. Ein weiteres prominentes Konstrukt, das in kontinuierlichen Zahlen ausgedrückt wird, ist der Intelligenzquotient. Aus wissenschaftlicher Sicht höchst fragwürdig, dient er dennoch als Grundlage, um die elitären Mensa-Mitglieder zu identifizieren. Mit einem IQ von 100 gilt man als durchschnittlich. Doch schon die Aussage, was höhere und niedrigere Zahlen bedeuten, ist sehr umstritten. Dies zeigt, dass kontinuierliche Zahlen weit verbreitet sind, um Daten auszudrücken, aber wir müssen uns bewusst sein, dass dies dann immer noch eine normative Information darstellt.
Beispiele
- die Zahl Pi: 3,14159265359...
- das typische Gewicht einer Nacktmullratte: 30 Gramm
- die Höhe des Empire State Buildings: 443,2m
- die Schmelztemperatur von dunkler Schokolade: 45-50°C
Ordinale Daten
Erinnern Sie sich an Ihre Schulnoten? Eine "1" ist die beste Note im deutschen Notensystem, aber ist sie doppelt so gut wie eine "2"? Wohl kaum. Solche Noten sind ordinale Zahlen. Es handelt sich dabei um ein System von Zahlen, die in gewisser Weise geordnet sind, aber die Zahlen an sich spiegeln nicht unbedingt ein numerisches System wider. Mit anderen Worten: Sie sind höchst normativ und umstritten. Eine "2" mag für die einen eine gute Note sein, für die anderen eine Katastrophe. Ordinale Formate sind oft klar definierte Skalen, die es Menschen ermöglichen, bestimmte Informationen zu benoten, zu bewerten oder in eine Rangfolge zu bringen. Eines der bekanntesten Beispiele ist die Likert-Skala, die häufig in der Psychologie verwendet wird. In diesem Fall wird die Skalierung oft gar nicht in Zahlen wiedergegeben, sondern in Stufen wie "stimme voll zu" oder "stimme eher nicht zu". Solche konstruierten Skalen können einen echten Statistiker sehr unglücklich machen, da die Ergebnisse schwer zu analysieren sind, aber es gibt kaum eine Alternative, da es auch keinen Sinn macht, zu fragen: "Wie glücklich sind Sie auf einer Skala von 1 bis 100?" Daher sind Ordinalskalen oft relevant, um ein Skalensystem zu schaffen, das eine breite Vergleichbarkeit ermöglicht oder sogar zur Norm wird, wie z.B. Schulnoten. Mein Rat wäre, Ordinalskalen zu verwenden, wenn dies in diesem Wissenschaftszweig üblich ist. Lesen Sie andere Studien auf dem Gebiet, und entscheiden Sie dann. Es handelt sich um hochgradig konstruierte Skalen, daher muss es eine klare Begründung geben, warum Sie sie verwenden wollen.
Nominale Daten
Wann immer Sie ordinale Daten haben, die Ebenen darstellen, die nicht in eine Rangfolge gebracht werden können, nennt man sie nominale Daten. Ein Beispiel wären verschiedene Ethnien, oder verschiedene Arten von Geschlechtern. Dies verdeutlicht bereits, dass wir es hier mit oft völlig unterschiedlichen Weltanschauungen zu tun haben, sodass nominale Daten einen krassen Fall einer normativen Sicht auf die Welt darstellen. Das Geschlecht ist ein prominentes Beispiel, da manche Menschen das Geschlecht immer noch über ein biologisches Stereotyp (weiblich/männlich) und damit binär definieren, was nach meinem Weltbild eindeutig falsch ist, weshalb ich Geschlecht nominal definieren würde. Nominale Datenformate verlangen daher eine noch deutlichere Reflexion als ordinale Daten, bei denen man zumindest sagen kann, dass eine bestimmte Schulnote höher ist als eine andere. Das ist bei nominalen Daten nicht der Fall. Deshalb muss man besonders vorsichtig sein mit den Implikationen, die eine bestimmte konstruierte Skala implizieren kann.
Kategorische Daten
Kategorische Daten können aus vielen verschiedenen Elementen bestehen. Diese Elemente sind nicht geordnet, sondern unabhängig voneinander. Solche Kategorien sind typischerweise konstruiert und enthalten daher Informationen, die zutiefst normativ oder konstruiert sind. Ein Beispiel wäre die Haarfarbe, die in der menschlichen Wahrnehmung von Farben stattfinden kann, aber auch bei professionellen Haarprodukten oft mit unterschiedlichen Namen beschrieben wird. Innerhalb der Statistik werden Kategorien oft so gebildet, dass innerhalb eines wissenschaftlichen Experiments die Kategorien in einem Sinne konstruiert werden, der eine sinnvolle Prüfung der Hypothese ermöglicht, und sinnvoll liegt dann im Auge des Betrachters. Unterschiedliche Düngemittelmengen wären ein solches Beispiel, und die Kategorien werden oft auf Basis von Vorwissen oder Vortests gebildet. Kategorien sind also von besonderer Bedeutung, wenn es um die Reduktion der Komplexität der Welt geht, da es nicht möglich wäre, alle möglichen unterschiedlichen Düngemittelmengen in einem Experiment zu testen. Dennoch muss man sich darüber im Klaren sein, dass Kategorien konstruiert und damit zutiefst normativ sind.
Binäre Daten
Das am meisten reduzierte Datenformat ist Binärdaten, das grundsätzlich aus zwei Ebenen besteht. In der Informatik mag das eine einfache 0 und 1 sein, aber der große Durchbruch dieses Datensatzes kam schon früh in der Versicherungsbranche sowie in der Medizin, wo tot oder lebendig oft die grundlegendsten Fragen sind. Binäre Informationen sind eindeutig vereinfachend, was aber oft mit einer bestimmten Sicht der Realität übereinstimmt. Nehmen Sie das Beispiel, ein Instrument spielen zu können. Wenn Sie jemand fragt, ob Sie Klavier spielen können, werden Sie wahrscheinlich ja oder nein sagen. Sie werden Ihre Antwort höchstwahrscheinlich nicht qualifizieren, indem Sie sagen "Ich spiele besser als ein Affe, aber schlechter als Horowitz". Einige bescheidene Leute sagen vielleicht "Ich kann ein bisschen spielen", oder "Ich bin nicht sehr gut", oder "Ich war mal besser", aber sehr oft antworten Menschen mit ja oder nein. Binäre Daten erlauben also eine einfache Sicht auf die Realität, und diese mag oft mit der Welt übereinstimmen, wie wir sie wahrnehmen. Aber seien Sie sich bewusst: Andere Menschen haben vielleicht eine weniger einfache Sichtweise.
Auswahl des richtigen Datenformats
Sie fragen sich jetzt vielleicht, wie Sie das richtige Datenformat auswählen. Die Antwort darauf ist ganz einfach. Jedes Datenformat sollte so einfach wie möglich und so komplex wie nötig sein. Folgen Sie Occams Rasiermesser, und Sie werden gut zurechtkommen. Das klingt natürlich verlockend, aber woher weiß man, was zu einfach und was zu komplex ist? Hier schlage ich vor, dass Sie sich auf die vorhandene Literatur stützen. Lesen Sie andere Veröffentlichungen, die ein bestimmtes Phänomen bereits untersucht haben, diese Veröffentlichungen können Ihnen bei der Wahl der richtigen Skala helfen.
Übersicht über die Eigenschaften einiger Datenformate
Weitere Informationen
Intelligence Quotient: Answering the question if the IQ really measures how smart you are
Different data formats: An overview
Binary data: How our computer works
The Intelligence Quotient: A critical reflection
Measurement: Reflecting upon different measurement systems across the globe
IQ: An explanation
Nominal vs. ordinal data: A comparison
Likert scale: The most popular rating scale
Ordinal data: Limitations
Nominal data: An explanation
Binary data: An explanation
GDP: A detailed article
Measurement: Reflecting upon different measurement systems across the globe
The Human Development Index: An alternative to the GDP
The GINI index: A measure of inequality
The author of this entry is Henrik von Wehrden.