Einführung in die deskriptive Statistik#
Die deskriptive Statistik dient dazu, Datenmengen zusammenzufassen, zu organisieren und darzustellen. Dabei werden zentrale Tendenzen, Streuungsmaße und Verteilungen untersucht, um die wesentlichen Eigenschaften einer Datenmenge zu beschreiben.
Ziele der deskriptiven Statistik:#
Datenübersicht schaffen: Große und komplexe Datensätze sollen durch geeignete Kennzahlen und Visualisierungen verständlich gemacht werden.
Entdeckung von Mustern: Durch die Analyse von Mittelwerten, Streuungen und Verteilungen können grundlegende Muster und Trends identifiziert werden.
Vergleiche ermöglichen: Unterschiedliche Datensätze können anhand von Kennzahlen wie Mittelwert, Median oder Standardabweichung direkt verglichen werden.
Basis für weitere Analysen schaffen: Sie bildet die Grundlage für weitere, tiefer gehende statistische Methoden, etwa aus der induktiven Statistik, die Aussagen über Grundgesamtheiten trifft.
Beispielsweise könnten in einer Studie die Körpergrößen von Personen untersucht werden. Die deskriptive Statistik würde die durchschnittliche Größe (Mittelwert), die typische Größe (Median) und die Streuung der Größen (z. B. Standardabweichung) beschreiben.
Grundbegriffe#
Definition
Wir nutzen die folgenden Begriffe:
Statistische Einheit: Objekt, an dem interessierende Größe(n) erfasst wird/werden
Alternative Bezeichung: Merkmalsträger, Untersuchungseinheit
Typisches Formelzeichen: \(\omega\)Grundgesamtheit: Menge aller für die Fragestellung relevanten statistischen Einheiten
Typisches Formelzeichen: \(\Omega\)Stichprobe: tatsächlich untersuchte Teilmenge der Grundgesamtheit
Merkmal: die zu untersuchende Größe bzw. Eigenschaft
Merkmalsausprägung: konkreter Wert des Merkmals für eine bestimmte statistische Einheit
Typisches Formelzeichen: \(s\)Zustandsraum: Menge aller möglichen Merkmalsausprägungen
Typisches Formelzeichen: \(S\)
Die Begriffe der Definition wollen wir am Beispiel verdeutlichen.
Beispiel: Umfrage zur Zufriedenheit mit einem Fitnessstudio
Die statistische Einheit in diesem Fall sind die Mitglieder des Fitnessstudios. Jedes Mitglied wird hinsichtlich seiner Zufriedenheit untersucht.
Formelzeichen: \(\omega\)Die Grundgesamtheit umfasst alle Mitglieder des Fitnessstudios, die aktuell registriert sind.
Formelzeichen: \(\Omega\)Die Stichprobe ist eine Teilmenge der Grundgesamtheit, zum Beispiel 100 zufällig ausgewählte Mitglieder, die tatsächlich befragt werden.
Das Merkmal ist die Zufriedenheit mit dem Fitnessstudio. Es könnte auf einer Skala von 1 (sehr unzufrieden) bis 5 (sehr zufrieden) erhoben werden.
Eine Merkmalsausprägung ist der konkrete Wert, den ein befragtes Mitglied auf der Zufriedenheitsskala angibt. Formelzeichen: \(s\). Zum Beispiel:
Mitglied 1 gibt eine 4 an (eher zufrieden).
Mitglied 2 gibt eine 5 an (sehr zufrieden).
Der Zustandsraum ist die Menge aller möglichen Merkmalsausprägungen. In diesem Beispiel: \(S = \{1, 2, 3, 4, 5\}\).
Merkmale#
Merkmale lassen sich auf verschiedene Weisen in Klassen einteilen.
Es folgen drei dieser möglichen Einteilungen.
Qualitativ vs. Quantitativ#
Definition
Ein Merkmal heißt:
Qualitatives Merkmal:
Falls die Ausprägungen eine Qualität wiedergeben (und nicht ein Ausmaß).
Insbesondere gibt es nur endlich viele Ausprägungen, und es gibt keine zwingende Ordnung oder Reihenfolge.Quantitatives Merkmal:
Falls die Ausprägungen ein Ausmaß bzw. eine Intensität widerspiegeln.
Die Ausprägungen sind Zahlen (mit oder ohne Maßeinheit).
Beispiele für qualitative Merkmale: Geschlecht, Religionszugehörigkeit, Parteipräferenz.
Beispiele für quantitative Merkmale: Alter, Größe, Einkommen.
Diskret vs. Stetig#
Ein Unterscheidung danach „wie viele Ausprägungen“ möglich sind führt zu folgender Definition.
Definition
Ein Merkmal heißt:
diskret, wenn die Ausprägung (bei geeignter Skalierung/Kodierung) nur ganzzahlige Werte annehmen können.
stetig, wenn die Ausprägung beliebige Zahlenwerte eines Intervalls annehmen kann.
Beispiele für diskrete Merkmale: Zensuren, Einwohneranzahl, Produktionszahlen einer Maschine.
Beispiele für stetige Merkmale: Gewicht, Zeitmessung im 100-Meter-Lauf, Länge einer Schraube.
Hinter dem Tellerrand …
Die mathematisch sauberen Formulierungen lauten folgendermaßen:
Ein Merkmal heißt diskret, falls es nur endlich viele oder abzählbar unendlich viele Ausprägungen annehmen kann.
Ein Merkmal heißt stetig, falls es überabzählbar viele Ausprägungen annehmen kann
Die Unterscheidung zwischen abzählbar und überabzählbar unendlich großen Mengen geht auf Georg Cantor zurück. Er entwickelte eine Theorie zur Unterscheidung verschiedener Größen von Unendlichkeit. Existiert eine bijektive Abbildung von den natürlichen Zahlen in eine zu untersuchende Menge \(M\), so sagt man die Menge \(M\) ist abzählbar unendlich groß. Die Existenz dieser bijektiven Abbildung entspricht der Möglichkeit die Elemente aus \(M\) mit den natürliche Zahlen durchzunummerieren. Es stellt sich heraus, dass es Mengen gibt, die zu groß sind als dass man sie mit den natürlichen Zahlen durchnummerieren kann (z.B. die reellen Zahlen). Eine solche Menge heißt dann überabzählbar.
Nominal-, Ordinal- und Metrisch Skaliert#
Die folgende Unterscheidung folgt einer Hirarachie. Im Wesentlichen geht es hier um die Frage, welche Rechenoperationen mit den Merkmalen zulässig sind. Fragen wir zum Beispiel nach der Lieblingsfarbe, so ergibt sich als Stichprobe ein Vektor von Farben, z.B. \(x=(\)rot, grün, rot, blau, gelb\()\). Hier ist es sicherlich nicht sinnvoll den Mittelwert der Stichprobe berechnen zu wollen. Fragen wir allerdings die Körpergröße ab, so ist die Frage nach dem Mittelwert berechtigt und sinnvoll
Definition
Ein Merkmal heißt:
Nominalskaliert, genau dann, wenn es qualitativ ist (d.h. qualitatives Merkmal = nominalskaliertes Merkmal).
Ordinalskaliert:
Wenn es eine Rangordnung der Merkmalsausprägungen gibt, jedoch die Abstände zwischen den Ausprägungen nicht interpretiert werden können.Metrisch skaliert (oder kardinalskaliert):
Falls es eine Rangordnung der Merkmalsausprägungen gibt und die Abstände zwischen den Ausprägungen messbar und interpretierbar sind.Intervallskala:
Kein natürlicher Nullpunkt existiert.Verhältnisskala:
Natürlicher Nullpunkt existiert.
Beispiele
für nominalskalierte Merkmale: Geschlecht, Religionszugehörigkeit, Parteipräferenz.
für ordinalskalierte Merkmale: Dienstrang im Militär, Zufriedenheit mit einem Produkt (z. B. sehr > mittel > nicht zufrieden).
für die Intervallskala: IQ-Skala, Temperatur in Celsius, Jahreszahlen.
für die Verhältnisskala: Zeitdauer, Masse, Preis.
Bemerkung
Bei Nominalskala lassen sich Häufigkeiten der einzelnen Ausprägungen zählen und in einer Tabelle darstellen. Man kann herausfinden welches die/eine häufigste Ausprägung ist (Bezeichnung: Modus oder Modalwert der Stochprobe). Es sind keine Rechenoperationen wie Addition, Subtraktion, Multiplikation oder Division erlaubt.
Bei Ordinalskala ist alles erlaubt, was bei der Nominalskala erlaubt ist. Zusätzlich, kann man die Ausprägungen anordnen/sortieren und beispielsweise benennen welches Element nach der Sortierung genau in der Mitte steht (Bezeichung: Median)
Bei Intervallskalen ist alles erlaubt, was bei der Ordinalkala erlaubt ist. Zusätzlich ist die Differenzenbildung erlaubt.
Bei Verhältnisskalen ist alles erlaubt, was bei der Intervallskalen erlaubt ist. Zusätzlich ist die Quotientenbildung erlaubt, da ein natürlicher Nullpunkt existiert.
Stichproben#
Wieso braucht man Stichproben?#
Uns interessiert die Verteilung der Merkmale unserer Grundgesamtheit auf \(S\) (z.B. Verteilung der Noten, Verteilung der Körpergrößen, Altersverteilung)
Oft ist \(\Omega\) zu groß, als dass man alle Werte Elemente der Grundgesamtheit auf die Merkmalsausprägung untersuchen kann. (Gründe sind etwa: Kosten, Zeit,…)
Idee: Einschränkung auf möglichst repräsentative Teilmenge von Messungen der Merkmale. Berechnung von Kennzahlen, Eigenschaften, … auf dieser Teilmenge.
Hoffnung: Diese Berechnungen geben uns Aufschluss über die Zusammensetzung der Merkmale.
Ziehen daher Stichprobe aus den Daten.
Um die Stichprobe vom Umfang \(n\) zu generieren, wählen wir zufällig \(n\) Elemente aus der Grundgesamtheit aus und notieren deren Merkmalsausprägung
Diese Daten heißen konkrete Stichprobe (oder Beobachtungsreihe, Urliste oder Rohdaten). Die Größe der Stichprobe ist \(n\).
Oft wird die Stichprobe als Vektor
dargestellt.
Wie gewinnt man eine Stichprobe?#
Effektive Ziehung vs. Hohe Repräsentativität
einfache Zufallsstichprobe zufällige Ziehung von \(n\) Kugeln aus Urne; in Realität schwer umsetzbar
systematische Ziehung z.B. jede siebte Wohnung; problematisch, falls auch in den zu erhebenden Daten eine Systematik vorliegt
mehrstufige Auswahlverfahren z.B. erst Auswahl von Städten; in ausgewählten Städten werden Straßen ausgewählt; in ausgewählten Straßen werden Häuser ausgewählt
Klumpenstichprobe z.B. werden alle Kunden, welche sich zwischen \(9\) und \(10\) im Supermarkt befinden, befragt
…
Wir gehen im Folgenden davon aus, dass eine einfache Zufallsstichprobe gezogen wurde!
Univariat vs. Multivariat#
Statistische Analysen unterscheidet man oft in univariat und multivariat. Man spricht von univariater Statistik, wenn der Zustandsraum eindimensional ist und von multivariater Statistik, wenn der Zustandsraum mehrdimensional ist.
Im univariaten Fall interessiert man sich für genau eine Eigenschaft der statistischen Einheiten (z.B. die Leistung eines PKW oder die Körpergröße einer Person). Im multivariaten Fall werden von den statistischen Einheiten mehrere Eigenschaften erhoben (z.B. Leistung und Alter eines PKW oder Körpergröße und Gewicht einer Person).
Beispiel
univariat:
\(S=\{1,2,3,4,5,6\}\) (Schulnoten; Würfel)
\(S=\{0,1\}\) (bestanden/nicht bestanden; Münzwurf; krank/gesund,…)
\(S=\mathbb R^+\) (Körpergröße; Gewicht; Zeitmessung,…)
multivariat:
\(S=\mathbb R\times\mathbb R =\mathbb R^2\) (Körpergröße und Gewicht; Geschwindigkeit und Ort; Temperatur und Länge; … )
\(S=\{1,\dots,6\}^2\) (Wurf mit 2 Würfeln)
\(S=\{1,\dots,6\}^4\) (Zeugnisnoten in den Fächern Deutsch, Englisch, Mathe und Sport)