Empirische Verteilungsfunktion

Empirische Verteilungsfunktion#

Definition#

Eine weitere wichtige Möglichkeit die Daten einer (metrischen) Stichprobe zu visualisieren ist die empirische Verteilungsfunktion. Sie ist folgendermaßen definiert:

Definition

Sei \(x_1,\dots,x_n\) eine Stichprobe. Die Funktion

\[F:\mathbb R \to \mathbb R,\qquad F(x)=\frac{\text{Anzahl der Stichprobenwerte kleiner-gleich x}}{n}\]

heißt empirische Verteilungsfunktion zur Stichprobe.

Schauen wir uns das noch etwas genauer an. Sei

\[x_1,\dots, x_n\]

eine Stichprobe mit den Ausprägungen \(a_1,\dots a_k\) mit \(k\leq n\). Dann können wir jeweils die absoluten und relativen Häufigkeitn in einer Tabelle darstellen:

Ausprägung

\(a_1\)

\(a_2\)

\(a_3\)

\(a_k\)

abs. Häufigkeit

\(h_1\)

\(h_2\)

\(h_3\)

\(h_k\)

rel. Häufigkeit

\(f_1\)

\(f_2\)

\(f_3\)

\(f_k\)

\(F(a_i)\)

\(f_1\)

\(f_1+f_2\)

\(f_1+f_2+f_3\)

\(f_1+f_2+\dots +f_k=1\)

In der letzen Zeile der Tabelle sehen wir den Wert der Verteilungsfunktion \(F\) an einer Stelle \(a_i\). Dieser ist gleich er Summe aller relativen Häufigkeiten zu allen Werten die kleiner-gleich \(a_i\) sind.

Den gesamten Verlauf der Funktion geben wir folgendermaßen an

\[\begin{split}F:\mathbb R\to\mathbb R,\quad F(x)=\begin{cases}0 & \text{ falls } x < a_1 \\ f_1 & \text { falls } a_1\leq x \leq a_2 \\ f_1+f_2 & \text { falls } a_2\leq x \leq a_3\\ f_1+f_2+f_3& \text { falls } a_3\leq x \leq a_4\\ \vdots & \quad \vdots \\ f_1+\dots +f_{k-1}& \text { falls } a_{k-1}\leq x \leq a_k\\ 1& \text { falls } x \geq a_k \end{cases}\end{split}\]

Diese Funktion springt also an allen Ausprägungen der Stichprobe. Die Sprunghöhe ist dabei die relative Häufigkeit der Ausprägung.

Beispiel 1#

Wir geben uns eine Stichprobe vor und lassen die empirische Verteilungsfunktion in R plotten.

x <- c(2,3,4,5,4,5,5,6,8,5) # Stichprobe
table(x)                    # Tabelle mit abs. Häufigkeiten
prop.table(table(x))        # Tabelle mit rel. Häufigkeiten
F <- ecdf(x)                # R erstellt die emp.VF
plot(F)                     # plot der emp.VF
x
2 3 4 5 6 8 
1 1 2 4 1 1 
x
  2   3   4   5   6   8 
0.1 0.1 0.2 0.4 0.1 0.1 
../_images/8eb823a61cf7b85c5b98e08adfcbff747a2294de43e3a51a955f83717c8e941b.png

Beispiel 2#

Die Stichprobe mit folgender Häufigkeitstabelle

Ausprägung

\(2\)

\(3\)

\(5\)

\(6\)

\(8\)

abs. Häufigkeit

\(4\)

\(5\)

\(3\)

\(6\)

\(2\)

rel. Häufigkeit

\(0.2\)

\(0.25\)

\(0.15\)

\(0.3\)

\(0.1\)

hat die Verteilungsfunktion

\[\begin{split} F:\mathbb R \to \mathbb R,\quad F(x) = \begin{cases} 0 & \text{ falls }x < 2 \\ 0.2& \text{ falls }2< x \leq 3 \\ 0.45& \text{ falls }3< x \leq 5 \\ 0.6& \text{ falls }5< x \leq 6 \\ 0.9& \text{ falls }6< x \leq 8 \\ 1& \text{ falls } x \geq 8 \end{cases}\end{split}\]

Eigenschaften und Interpretation#

Eigenschaften

  • \(F\) ist monoton wachsend

  • Es gilt \(0\leq F(x)\leq 1\) für alle \(x\in \mathbb R\)

  • \(\lim\limits_{x\to -\infty} F(x) = 0 \)

  • \(\lim\limits_{x\to \infty} F(x) = 1 \)

  • \(F\) ist rechtsseitig stetig

Interpretation

  • Sprunghöhe an Stelle \(x\) ist gleich der relative Häufigkeit des Wertes \(x\) in der Stichprobe

  • Funktionswert von \(F\) an Stelle \(x\) ist gleich dem Anteil der Werte \(\leq x\) in der Stichprobe

  • kein Sprung an Stelle \(x\) \(\quad\Leftrightarrow\quad\) Wert \(x\) kommt in Stichporbe nicht vor

  • Kennt man die Stichprobengröße, so lässt sich aus der empirischen Verteilungsfunktion die gesamte Stichprobe rekonstruieren.

  • Die empirsche Verteilungsfunktion enthält „die gesamte Information“ der Stichprobe und stellt dies graphisch dar.

Beispiel: Auslesen der Werte in R

x <- c(2,3,4,5,4,5,5,6,8,5) # Stichprobe
table(x)                    # Tabelle mit abs. Häufigkeiten
prop.table(table(x))        # Tabelle mit rel. Häufigkeiten
F <- ecdf(x)                # R erstellt die emp.VF
cat("Anteil der Werte kleiner-gleich 5:")   # gibt den Text aus
F(5)                                        # gibt F an Stelle 5 aus 
cat("Anteil der Werte kleiner-gleich 6.4:") # gibt den Text aus
F(6.4)                                      # gibt F an Stelle 6.4 aus
x
2 3 4 5 6 8 
1 1 2 4 1 1 
x
  2   3   4   5   6   8 
0.1 0.1 0.2 0.4 0.1 0.1 
Anteil der Werte kleiner-gleich 5:
0.8
Anteil der Werte kleiner-gleich 6.4:
0.9