Empirische Verteilungsfunktion#

Die empirische Verteilungsfunktion zeigt anschaulich, welcher Anteil der beobachteten Werte kleiner oder gleich einem bestimmten Wert \(x\) ist. Man kann sie als eine „Treppenfunktion“ verstehen, die bei jedem Messwert einen Sprung macht - der Sprung entspricht genau dem relativen Anteil dieser Messwerte in der Stichprobe. So lässt sich für jeden möglichen Wert \(x\) direkt ablesen: Wie viel Prozent der Daten sind kleiner oder geleich diesem Wert?

Diese Funktion definieren wir im Folgenden noch genauer. Wir werden Sie am Beispiel untersuchen und Eigenschaften sowie Interpetationen besprechen.

Definition#

Die empirische Verteilungsfunktion ist folgendermaßen definiert:

Definition

Sei \(x_1,\dots,x_n\) eine Stichprobe. Die Funktion

\[F:\mathbb R \to \mathbb R,\qquad F(x)=\frac{\text{Anzahl der Stichprobenwerte kleiner-gleich x}}{n}\]

heißt empirische Verteilungsfunktion zur Stichprobe.

Dies soll genauer betrachtet werden. Sei

\[x_1,\dots, x_n\]

eine Stichprobe mit den Ausprägungen \(a_1,\dots a_k\) mit \(k\leq n\). Die absoluten und relativen Häufigkeiten werden in einer Tabelle folgendermaßen dargestellt:

Ausprägung

\(a_1\)

\(a_2\)

\(a_3\)

\(a_k\)

abs. Häufigkeit

\(h_1\)

\(h_2\)

\(h_3\)

\(h_k\)

rel. Häufigkeit

\(f_1\)

\(f_2\)

\(f_3\)

\(f_k\)

\(F(a_i)\)

\(f_1\)

\(f_1+f_2\)

\(f_1+f_2+f_3\)

\(f_1+f_2+\dots +f_k=1\)

In der letzten Zeile der Tabelle steht den Wert der empirischen Verteilungsfunktion \(F\) an einer Stelle \(a_i\). Dieser ist gleich der Summe aller relativen Häufigkeiten zu allen Werten die kleiner-gleich \(a_i\) sind.

Den gesamten Verlauf der Funktion gibt man folgendermaßen an

\[\begin{split}F:\mathbb R\to\mathbb R,\quad F(x)=\begin{cases}0 & \text{ falls } x < a_1 \\ f_1 & \text { falls } a_1\leq x \leq a_2 \\ f_1+f_2 & \text { falls } a_2\leq x \leq a_3\\ f_1+f_2+f_3& \text { falls } a_3\leq x \leq a_4\\ \vdots & \quad \vdots \\ f_1+\dots +f_{k-1}& \text { falls } a_{k-1}\leq x \leq a_k\\ 1& \text { falls } x \geq a_k \end{cases}\end{split}\]

Diese Funktion springt also an allen Ausprägungen der Stichprobe. Die Sprunghöhe ist dabei gleich der relativen Häufigkeit der Ausprägung.

Bemerkung

Der Begriff Verteilungsfunktion wird später noch an anderer Stelle auftauchen. Im Zusammenhang mit Zufallsvariablen spricht man auch von Verteilungsfunktionen. Diese beschreiben die Gesetzmäßigkeit des Zufalls.

Es wird sich zeigen, dass beide Begriffe eng verwandt sind.

Beispiel 1#

Zu einer voregegebenen Stichprobe wird die emprische Verteilungsfunktion in R geplottet.

x <- c(2,3,4,5,4,5,5,6,8,5) # Stichprobe
table(x)                    # Tabelle mit abs. Häufigkeiten
prop.table(table(x))        # Tabelle mit rel. Häufigkeiten
F <- ecdf(x)                # R erstellt die emp.VF
plot(F)                     # plot der emp.VF
x
2 3 4 5 6 8 
1 1 2 4 1 1 
x
  2   3   4   5   6   8 
0.1 0.1 0.2 0.4 0.1 0.1 
../../_images/8eb823a61cf7b85c5b98e08adfcbff747a2294de43e3a51a955f83717c8e941b.png

Beispiel 2#

Hier sehen wir eine alternative Stichprobe und deren empirische Verteilungsfunktion. Die Stichprobe entnehmen wir der folgenden Häufigkeitstabelle

Ausprägung

\(2\)

\(3\)

\(5\)

\(6\)

\(8\)

abs. Häufigkeit

\(4\)

\(5\)

\(3\)

\(6\)

\(2\)

rel. Häufigkeit

\(0.2\)

\(0.25\)

\(0.15\)

\(0.3\)

\(0.1\)

Die zugehörige empirische Verteilungsfunktion lautet

\[\begin{split} F:\mathbb R \to \mathbb R,\quad F(x) = \begin{cases} 0 & \text{ falls }x < 2 \\ 0.2& \text{ falls }2< x \leq 3 \\ 0.45& \text{ falls }3< x \leq 5 \\ 0.6& \text{ falls }5< x \leq 6 \\ 0.9& \text{ falls }6< x \leq 8 \\ 1& \text{ falls } x \geq 8 \end{cases}\end{split}\]

Eigenschaften und Interpretation#

Eigenschaften

Interpretation

  • Sprunghöhe an Stelle \(x\) ist gleich der relative Häufigkeit des Wertes \(x\) in der Stichprobe

  • Funktionswert von \(F\) an Stelle \(x\) ist gleich dem Anteil der Werte kleiner-gleich \(x\) in der Stichprobe

  • kein Sprung an Stelle \(x\) \(\quad\Leftrightarrow\quad\) Wert \(x\) kommt in Stichprobe nicht vor

  • Kennt man die Stichprobengröße, so lässt sich aus der empirischen Verteilungsfunktion die gesamte Stichprobe rekonstruieren.

  • Die empirische Verteilungsfunktion enthält „die gesamte Information“ der Stichprobe und stellt dies graphisch dar.

Beispiel 3#

In diesem Beispiel wird gezeigt, wie man Funktionswerte der empirischen Verteilungsfunktion in R auslesen kann.

x <- c(2,3,4,5,4,5,5,6,8,5) # Stichprobe
table(x)                    # Tabelle mit abs. Häufigkeiten
prop.table(table(x))        # Tabelle mit rel. Häufigkeiten
F <- ecdf(x)                # R erstellt die emp.VF
cat("Anteil der Werte kleiner-gleich 5:")   # gibt den Text aus
F(5)                                        # gibt F an Stelle 5 aus 
cat("Anteil der Werte kleiner-gleich 6.4:") # gibt den Text aus
F(6.4)                                      # gibt F an Stelle 6.4 aus
x
2 3 4 5 6 8 
1 1 2 4 1 1 
x
  2   3   4   5   6   8 
0.1 0.1 0.2 0.4 0.1 0.1 
Anteil der Werte kleiner-gleich 5:
0.8
Anteil der Werte kleiner-gleich 6.4:
0.9