Difference between revisions of "Data formats (German)"

Revision as of 10:48, 24 August 2021

Note: This is the German version of this entry. The original, English version can be found here: Data formats. This entry was translated using DeepL and only adapted slightly. Any etymological discussions should be based on the English text.

Datenformate in der Statistik

Das Format Ihrer Daten beeinflusst alles Andere, was Sie im weiteren Verlauf tun. Um ein Sprichwort zu paraphrasieren: Die Daten haben ein Format, und das Format sind die Daten. Deshalb ist es wichtig zu wissen, welche verschiedenen Datenformate es gibt, und wie diese von Vorteil sein können, und wo Sie auf Fallstricke stoßen können. Weitere Informationen zu verschiedenen Messmethoden finden Sie im Eintrag To Rule And To Measure (German). Der wichtigste Unterschied besteht zwischen quantitativen Daten und qualitativen Daten. Quantitative Daten können aus ganzen Zahlen und diskreten Daten bestehen, während qualitative Daten faktoriell - d. h. in wirklich verschiedenen Kategorien -, nominal oder ordinal sein können, wobei die beiden letzteren eine Verbindung zu quantitativen Daten herstellen. Die Nomenklatur für Datenformate ist jedoch in den verschiedenen Wissenschaftsbereichen sehr unterschiedlich, und um ehrlich zu sein, ein einziges Durcheinander. Wir versuchen hier, konsistent zu sein, aber seien Sie sich bitte bewusst, dass diese Bezeichnungen in der Wissenschaft nicht einheitlich sind.

Ein Beispiel für verschiedene Datenformate

Ein Ernährungs-Tagebuch ist nur eines von vielen Beispielen, wie Sie verschiedene Datenformate angehen können

Stellen Sie sich vor, Sie wollen Ihre Ernährung tracken. Viele Menschen tun dies heute, es gibt überall Diätbücher und -ratgeber, viele Informationen sind verfügbar geworden. Nun möchten Sie damit beginnen und sich mit dem, was Sie essen, besser vertraut machen. Wie würden Sie anfangen? Mit dem Zählen von Kalorien? Unterscheiden Sie zwischen Kohlenhydraten, Fett und Grünzeug? Vielleicht zählen Sie einfach jedes Mal, wenn Sie eine Pizza gegessen haben? Oder Eiscreme? Oder zu viel? Es gibt viele Möglichkeiten, Ihre Ernährung zu messen. Und diese Messungen können in verschiedenen Datenformaten erfolgen.

Die meisten Datenformate können in andere Datenformate umgewandelt werden, was für viele Menschen oft verwirrend ist. Zum Beispiel können nominale Daten wiederholt gezählt werden, z. B. die Tassen Kaffee, die Sie jeden Tag trinken. Die Anzahl der Tassen würde sich dann aufaddieren, was diskrete Daten darstellen würde. Ein anderes Beispiel wäre die Temperatur, die als kontinuierliche Daten in Grad Celsius (besser nicht in Fahrenheit) dargestellt werden könnte. Diese kann zwar in Zahlen dargestellt werden, aber auch als Frosttemperatur oder Temperatur über 0 °C.

Numerische Daten

Numerische Daten sind quantitative Daten, die in Zahlen ausgedrückt werden, mit denen sich rechnen lässt. Es gibt zwei Arten numerischer Daten: kontinuierliche und diskrete Daten.

Kontinuierliche Daten

Es gibt manchmal mehr als ein System zur Messung von Daten, wie Sie hier sehen können. Trotzdem sind beide kontinuierlich.

Kontinuierliche Daten sind numerische Daten die nicht gezählt werden können, weil sie auf einer endlichen oder unendlichen Skala existieren. Wir alle sind mit kontinuierlichen Zahlen vertraut. Ein Großteil unserer Gesellschaft wird von diesen Zahlen beherrscht, und daher wird ein Großteil der in der Statistik analysierten Daten durch kontinuierliche Zahlen dargestellt. Da ein Großteil der modernen Messungen innerhalb eines vorgegebenen Systems automatisiert ist, müssen wir uns oft nicht allzu viele Gedanken darüber machen, wie die Daten aussehen. Nehmen Sie zum Beispiel Gewicht oder Größe. Innerhalb von Mitteleuropa wird dies eindeutig in Gramm oder Kilogramm bzw. in Zentimetern oder Metern gemessen. Wenn Sie jedoch in die USA ziehen, wird es eine ganz andere Geschichte, wegen des metrischen Systems, oder eher dessen mangelnder Nutzung. Plötzlich sind Sie einige Fuß groß und wiegen vielleicht einige "stones". Es gibt viele verschiedene Messsysteme, und man muss sich bewusst sein, wie diese genutzt werden. Diese Systeme sind also Konstrukte, und diese Konstrukte bauen auf kontinuierlichen Zahlen auf. Dies zeigt, dass kontinuierliche Zahlen weit verbreitet sind, um Daten auszudrücken, aber wir müssen uns bewusst sein, dass es sich dabei immer noch um normative Informationen handelt.

Kontinuierliche Daten haben eine echte Null. Eine echte Null ist definiert als völlige Abwesenheit von etwas, das in Zahlen dargestellt werden kann. Obwohl ein Gewicht von 0 kg oder eine Länge von 0 m abstrakt sind, stellen die Werte die Abwesenheit von Gewicht bzw. Länge dar.

Beispiele für kontinuierliche Daten:
- die Zahl Pi: 3,14159265359...
- das typische Gewicht einer Nacktmullratte: 30 Gramm
- die Höhe des Empire State Buildings: 443,2m
- die Schmelztemperatur von dunkler Schokolade: 45-50°C

Diskrete Daten

Diskrete Daten sind numerische Daten die gezählt werden können, da sie nur als natürliche Zahlen (1, 2, 3, 4...) vorliegen. Beispiele hierfür sind Schüler*innen in einer Klasse, oder das Alter, bei denen es keinen Sinn ergibt, mit kontinuierlichen Daten zu arbeiten. Natürlich kann man auch an einen halbierten Apfel denken, aber wenn wir Äpfel, Vögel oder Studierende zählen, betrachten wir sie normalerweise als vollständige Einheiten und halten uns an natürliche Zahlen. Diskrete Daten werden oft auch als "Häufigkeits-" oder "Zähldaten" bezeichnet, und in der Sprache R werden sie als "integer" (Ganzzahlen) bezeichnet.

Diskrete Daten haben auch eine echte Null. Nehmen wir noch einmal die Anzahl der Studierenden in einer Statistikvorlesung. Auch wenn die Vorlesung gut ist, zum Beispiel weil sie Lieder aus der Sesamstraße enthält, kann es sein, dass keine Studierenden in der Vorlesung sind. 0 Studenten in einer Vorlesung - da haben Sie Ihre echte Null.

Kategorische Daten

Kategorische Daten sind qualitative Daten, die in benannten Kategorien gesammelt werden können, die voneinander unabhängig sind. Solche Kategorien sind typischerweise konstruiert und enthalten daher Informationen, die zutiefst normativ oder konstruiert sind. Ein Beispiel wäre die Haarfarbe, die in der menschlichen Wahrnehmung von Farben stattfinden kann, aber auch bei professionellen Haarprodukten oft mit unterschiedlichen Namen beschrieben wird. Innerhalb der Statistik werden Kategorien oft so gebildet, dass innerhalb eines wissenschaftlichen Experiments die Kategorien in einem Sinne konstruiert werden, der eine sinnvolle Prüfung der Hypothese ermöglicht, und sinnvoll liegt dann im Auge des Betrachters. Unterschiedliche Düngemittelmengen wären ein solches Beispiel, und die Kategorien werden oft auf Basis von Vorwissen oder Vortests gebildet. Kategorien sind also von besonderer Bedeutung, wenn es um die Reduktion der Komplexität der Welt geht, da es nicht möglich wäre, alle möglichen unterschiedlichen Düngemittelmengen in einem Experiment zu testen. Dennoch muss man sich darüber im Klaren sein, dass Kategorien konstruiert und damit zutiefst normativ sind.

Es gibt zwei Arten kategorischer Daten: ordinale und nominale Daten.

Ordinale Daten

Die Likert-Skala

Auch wenn man sich über die Objektivität und den Sinn von Noten streiten kann, ist es ein anschauliches Beispiel für ordinale Daten.

Ordinale Daten sind kategorische Daten, die in eine Reihenfolge gebracht werden können, mit denen sich aber nicht rechnen lässt, selbst wenn sie als Zahlen ausgedrückt werden. Erinnern Sie sich an Ihre Schulnoten? Eine "1" ist die beste Note im deutschen Notensystem, aber ist sie doppelt so gut wie eine "2"? Wohl kaum. Solche Noten sind ordinale Zahlen. Es handelt sich dabei um ein System von Zahlen, die in gewisser Weise geordnet sind, aber die Zahlen an sich spiegeln nicht unbedingt ein numerisches System wider. Mit anderen Worten: Sie sind höchst normativ und umstritten. Eine "2" mag für die einen eine gute Note sein, für die anderen eine Katastrophe. Ordinale Formate sind oft klar definierte Skalen, die es Menschen ermöglichen, bestimmte Informationen zu benoten, zu bewerten oder in eine Rangfolge zu bringen. Eines der bekanntesten Beispiele ist die Likert-Skala, die häufig in der Psychologie verwendet wird. In diesem Fall wird die Skalierung oft gar nicht in Zahlen wiedergegeben, sondern in Stufen wie "stimme voll zu" oder "stimme eher nicht zu". Solche konstruierten Skalen können einen echten Statistiker sehr unglücklich machen, da die Ergebnisse schwer zu analysieren sind, aber es gibt kaum eine Alternative, da es auch keinen Sinn macht, zu fragen: "Wie glücklich sind Sie auf einer Skala von 1 bis 100?" Daher sind Ordinalskalen oft relevant, um ein Skalensystem zu schaffen, das eine breite Vergleichbarkeit ermöglicht oder sogar zur Norm wird, wie z.B. Schulnoten. Mein Rat wäre, Ordinalskalen zu verwenden, wenn dies in diesem Wissenschaftszweig üblich ist. Lesen Sie andere Studien auf dem Gebiet, und entscheiden Sie dann. Es handelt sich um hochgradig konstruierte Skalen, daher muss es eine klare Begründung geben, warum Sie sie verwenden wollen.

Nominale Daten

Gummibärchen sind ein nettes Beispiel, da man sie nach ihrer Farbe klassifizieren kann, was nominale Daten wären. Aber wenn man sie wiegt, erhält man wieder kontinuierliche Daten.

Wann immer Sie kategorische Daten haben, die nicht in eine Rangfolge gebracht werden können, nennt man sie nominale Daten. Ein Beispiel wären verschiedene Ethnien, Geburtsländer, oder verschiedene Arten von Geschlechtern. Dies verdeutlicht bereits, dass wir es hier mit oft völlig unterschiedlichen Weltanschauungen zu tun haben, sodass nominale Daten einen krassen Fall einer normativen Sicht auf die Welt darstellen. Das Geschlecht ist ein prominentes Beispiel, da manche Menschen das Geschlecht immer noch über ein biologisches Stereotyp (weiblich/männlich) und damit binär (siehe unten) definieren, was nach meinem Weltbild eindeutig falsch ist, weshalb ich Geschlecht nominal definieren würde. Nominale Datenformate verlangen daher eine noch deutlichere Reflexion als ordinale Daten, bei denen man zumindest sagen kann, dass eine bestimmte Schulnote höher ist als eine andere. Das ist bei nominalen Daten nicht der Fall. Deshalb muss man besonders vorsichtig sein mit den Implikationen, die eine bestimmte konstruierte Skala implizieren kann.

Binäre Daten

Ein weiterer Fall von Binärdaten

Binäre Daten sind das am meisten reduzierte Datenformat, das grundsätzlich aus zwei Ebenen besteht: 1 und 0. Streng genommen sind binäre Daten nominale Daten, aber eben nominale Daten, die nur in zwei Varianten vorliegen, die sich in 1 und 0 übersetzen lassen: An / Aus, Ja / Nein. In der Informatik werden binäre Daten direkt als einfache 0 und 1 genutzt, aber der große Durchbruch dieses Datensatzes kam schon früh in der Versicherungsbranche sowie in der Medizin, wo tot oder lebendig oft die grundlegendsten Fragen sind. Binäre Informationen sind eindeutig vereinfachend, was aber oft mit einer bestimmten Sicht der Realität übereinstimmt. Nehmen Sie das Beispiel, ein Instrument spielen zu können. Wenn Sie jemand fragt, ob Sie Klavier spielen können, werden Sie wahrscheinlich ja oder nein sagen. Sie werden Ihre Antwort höchstwahrscheinlich nicht qualifizieren, indem Sie sagen "Ich spiele besser als ein Affe, aber schlechter als Horowitz". Einige bescheidene Leute sagen vielleicht "Ich kann ein bisschen spielen", oder "Ich bin nicht sehr gut", oder "Ich war mal besser", aber sehr oft antworten Menschen mit ja oder nein. Binäre Daten erlauben also eine einfache Sicht auf die Realität, und diese mag oft mit der Welt übereinstimmen, wie wir sie wahrnehmen. Aber seien Sie sich bewusst: Andere Menschen haben vielleicht eine weniger einfache Sichtweise.

Auswahl des richtigen Datenformats

Sie fragen sich jetzt vielleicht, wie Sie das richtige Datenformat auswählen. Die Antwort darauf ist ganz einfach. Jedes Datenformat sollte so einfach wie möglich und so komplex wie nötig sein. Folgen Sie Occams Rasiermesser, und Sie werden gut zurechtkommen. Das klingt natürlich verlockend, aber woher weiß man, was zu einfach und was zu komplex ist? Hier schlage ich vor, dass Sie sich auf die vorhandene Literatur stützen. Lesen Sie andere Veröffentlichungen, die ein bestimmtes Phänomen bereits untersucht haben, diese Veröffentlichungen können Ihnen bei der Wahl der richtigen Skala helfen.

Übersicht über die Eigenschaften einiger Datenformate

Weitere Informationen

Intelligence Quotient: Answering the question if the IQ really measures how smart you are

Different data formats: An overview

Binary data: How our computer works

The Intelligence Quotient: A critical reflection

Measurement: Reflecting upon different measurement systems across the globe

IQ: An explanation

Nominal vs. ordinal data: A comparison

Likert scale: The most popular rating scale

Ordinal data: Limitations

Nominal data: An explanation

Binary data: An explanation

GDP: A detailed article