Empirische Verteilungsfunktion#
Definition#
Eine weitere wichtige Möglichkeit die Daten einer (metrischen) Stichprobe zu visualisieren ist die empirische Verteilungsfunktion. Sie ist folgendermaßen definiert:
Definition
Sei \(x_1,\dots,x_n\) eine Stichprobe. Die Funktion
heißt empirische Verteilungsfunktion zur Stichprobe.
Schauen wir uns das noch etwas genauer an. Sei
eine Stichprobe mit den Ausprägungen \(a_1,\dots a_k\) mit \(k\leq n\). Dann können wir jeweils die absoluten und relativen Häufigkeitn in einer Tabelle darstellen:
Ausprägung |
\(a_1\) |
\(a_2\) |
\(a_3\) |
… |
\(a_k\) |
---|---|---|---|---|---|
abs. Häufigkeit |
\(h_1\) |
\(h_2\) |
\(h_3\) |
… |
\(h_k\) |
rel. Häufigkeit |
\(f_1\) |
\(f_2\) |
\(f_3\) |
… |
\(f_k\) |
\(F(a_i)\) |
\(f_1\) |
\(f_1+f_2\) |
\(f_1+f_2+f_3\) |
… |
\(f_1+f_2+\dots +f_k=1\) |
In der letzen Zeile der Tabelle sehen wir den Wert der Verteilungsfunktion \(F\) an einer Stelle \(a_i\). Dieser ist gleich er Summe aller relativen Häufigkeiten zu allen Werten die kleiner-gleich \(a_i\) sind.
Den gesamten Verlauf der Funktion geben wir folgendermaßen an
Diese Funktion springt also an allen Ausprägungen der Stichprobe. Die Sprunghöhe ist dabei die relative Häufigkeit der Ausprägung.
Beispiel 1#
Wir geben uns eine Stichprobe vor und lassen die empirische Verteilungsfunktion in R plotten.
Beispiel 2#
Die Stichprobe mit folgender Häufigkeitstabelle
Ausprägung |
\(2\) |
\(3\) |
\(5\) |
\(6\) |
\(8\) |
---|---|---|---|---|---|
abs. Häufigkeit |
\(4\) |
\(5\) |
\(3\) |
\(6\) |
\(2\) |
rel. Häufigkeit |
\(0.2\) |
\(0.25\) |
\(0.15\) |
\(0.3\) |
\(0.1\) |
hat die Verteilungsfunktion
Eigenschaften und Interpretation#
Eigenschaften
\(F\) ist monoton wachsend
Es gilt \(0\leq F(x)\leq 1\) für alle \(x\in \mathbb R\)
\(\lim\limits_{x\to -\infty} F(x) = 0 \)
\(\lim\limits_{x\to \infty} F(x) = 1 \)
\(F\) ist rechtsseitig stetig
Interpretation
Sprunghöhe an Stelle \(x\) ist gleich der relative Häufigkeit des Wertes \(x\) in der Stichprobe
Funktionswert von \(F\) an Stelle \(x\) ist gleich dem Anteil der Werte \(\leq x\) in der Stichprobe
kein Sprung an Stelle \(x\) \(\quad\Leftrightarrow\quad\) Wert \(x\) kommt in Stichporbe nicht vor
Kennt man die Stichprobengröße, so lässt sich aus der empirischen Verteilungsfunktion die gesamte Stichprobe rekonstruieren.
Die empirsche Verteilungsfunktion enthält „die gesamte Information“ der Stichprobe und stellt dies graphisch dar.
Beispiel: Auslesen der Werte in R
x <- c(2,3,4,5,4,5,5,6,8,5) # Stichprobe
table(x) # Tabelle mit abs. Häufigkeiten
prop.table(table(x)) # Tabelle mit rel. Häufigkeiten
F <- ecdf(x) # R erstellt die emp.VF
cat("Anteil der Werte kleiner-gleich 5:") # gibt den Text aus
F(5) # gibt F an Stelle 5 aus
cat("Anteil der Werte kleiner-gleich 6.4:") # gibt den Text aus
F(6.4) # gibt F an Stelle 6.4 aus
x
2 3 4 5 6 8
1 1 2 4 1 1
x
2 3 4 5 6 8
0.1 0.1 0.2 0.4 0.1 0.1
Anteil der Werte kleiner-gleich 5:
Anteil der Werte kleiner-gleich 6.4: