Konfidenzintervalle für unbekannte Wahrscheinlichkeiten#

Problemstellung#

  • Wir betrachten ein zufälliges Ereignis \(A\), welches mit unbekannter Wahrscheinlichkeit \(p \in [0,1]\) eintritt, d.h. \(\mathbb{P}(A) = p\).

  • Zur Schätzung des Parameters betrachten wir \(n\) unabhängige Versuchswiederholungen.

  • Modellierung: \(n\) unabhängige, mit \(p\) Bernoulli-verteilte Zufallsvariablen \(X_1, \dots, X_n\) (dies ist die mathematische Stichprobe).

  • Erinnerung: Wegen \(\mathbb{E}(X) = p\) ist \(T = \bar{X}\) ein erwartungstreuer und konsistenter Schätzer für \(p\).

  • Gesucht: ein Konfidenzintervall zum Parameter \(\theta = p\).

Bezeichnungen

  • \(S_n= X_1+\dots+ X_n\) ist die Anzahl der „Erfolge“ (Anzahl der 1en in der Stichprobe)

  • \(\bar X= \frac{1}{n}S_n\) ist der Mittelwerte der Stichprobe / der Punktschätzer für \(p\) / der relative Anteil der „Erfolge“


Asymptotisches Konfidenzintervall#

Wir konstruieren ein asymptotisches Konfidenzintervall. Dies ist ein von \(n\) abhängiges Intervall \(I\), das für große \(n\) näherungsweise die Ungleichung

\[ \mathbb{P}(\theta \in I) \geq 1 - \alpha \]

erfüllt.

Grundidee: Nutze den zentralen Grenzwertsatz (ZGW):

  • Dieser erlaubt es, die Verteilung von Stichprobenfunktionen mit Hilfe der Normalverteilung zu approximieren.

  • Die Approximation gilt nur für große \(n\), daher der Name asymptotisches Intervall.

Die verschiedenen Fälle:

  • Zweiseitiger Fall

    \[ I_a(X_1, \dots, X_n) = \left[ \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} - R_n \right) \ ,\ \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} + R_n \right) \right] \]

    wobei \(z = z_{1 - \frac{\alpha}{2}}\) und

    \[ R_n= z \cdot \sqrt{ \frac{z^2}{4n^2} + \frac{\bar{X}(1 - \bar{X})}{n} } \]
  • Einseitiger Fall

    \[ I_a(X_1, \dots, X_n) = \left[ 0\ ,\ \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} +z \cdot \sqrt{ \frac{z^2}{4n^2} + \frac{\bar{X}(1 - \bar{X})}{n} } \right) \right] \]

    oder

    \[ I_a(X_1, \dots, X_n) = \left[ \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} - z \cdot \sqrt{ \frac{z^2}{4n^2} + \frac{\bar{X}(1 - \bar{X})}{n} }\right)\ ,\ 1 \right] \]

    wobei \(z = z_{1 - \alpha}\)

Diese Form des asymptotischen Konfidenzintervalls wird manchmal auch Wilson-Intervall genannt.

Exaktes Konfidenzintervall#

Ein exaktes Konfidenzintervall für eine unbekannte Wahrscheinlichkeit \(p\) beim Konfidenzniveau \(1 - \alpha\).

Folgende Formeln sind für beliebige Stichprobengrößen \(n\) anwendbar (im Gegensatz zum asymptotischen Intervall)!

  • Zweiseitiger Fall

    \[ I_e(X_1, \dots, X_n) = \left[ \frac{S_n F_1}{n - S_n + 1 + S_n F_1},\ \frac{(S_n + 1) F_2}{n - S_n + (S_n + 1) F_2} \right] \]

    mit den Quantilen der F-Verteilung

    \[ F_1 := F_{2S_n,\ 2(n - S_n + 1);\ \frac{\alpha}{2}}, \quad F_2 := F_{2(S_n + 1),\ 2(n - S_n);\ 1 - \frac{\alpha}{2}} \]
  • Einseitiger Fall

    \[ I_e(X_1, \dots, X_n) = \left[ 0\ ,\ \frac{(S_n + 1) F_2}{n - S_n + (S_n + 1) F_2} \right] \]

    mit dem Quantil der F-Verteilung

    \[ F_2 := F_{2(S_n + 1),\ 2(n - S_n);\ 1 - \alpha} \]

    oder

    \[ I_e(X_1, \dots, X_n) = \left[ \frac{S_n F_1}{n - S_n + 1 + S_n F_1}\ ,\ 1 \right] \]

    mit dem Quantil der F-Verteilung

    \[ F_1 := F_{2S_n,\ 2(n - S_n + 1);\ \alpha} \]

Beispiel#

Beispiel: Qualitätskontrolle bei Glühbirnen

Ein Hersteller möchte überprüfen, wie zuverlässig seine Glühbirnen sind. Aus der laufenden Produktion werden n = 80 Glühbirnen zufällig ausgewählt und getestet. Es zeigt sich, dass 12 Glühbirnen defekt sind.


Aufgabenstellung

  1. Schätze die Wahrscheinlichkeit \( p \), dass eine Glühbirne defekt ist.

  2. Bestimme ein asymptotisches zweiseitiges Konfidenzintervall für \(p\) zum Niveau \(1 - \alpha = 0.95\).

  3. Berechne ein exaktes zweiseitiges Konfidenzintervall für \(p\) mit dem gleichen Konfidenzniveau.

Gegebene Werte

  • \(\alpha=0.05\)

  • Stichprobengröße: \(n = 80\)

  • Anzahl defekter Glühbirnen: \(12\)

  • Anteil defekter Glühbirnen:\( \bar{x} = \frac{12}{80} = 0.15\)

Lösung

  1. \(p=\bar x= 0.15\)

  2. Setze die Werte in die Formel für das asymptotische Konfidenzintervall ein

    \[\begin{split}\begin{align*} I_a(x_1, \dots, x_n) &= \left[ \frac{80}{80 + z^2} \left( 0.15 + \frac{z^2}{2\cdot 80} - R_n \right) \ ,\ \frac{80}{80 + z^2} \left( 0.15 + \frac{z^2}{2\cdot 80} + R_n \right) \right] \\ &\approx [0.08794 \ , \ 0.24413] \end{align*} \end{split}\]

    wobei \(z = z_{1 - \frac{0.05}{2}}=z_{0.975}=1.96\) und

    \[ R_n= z \cdot \sqrt{ \frac{z^2}{4\cdot 80^2} + \frac{0.15\cdot 0.85}{80} } \approx 0.081846 \]

    R-Code zur Berechnung des Quantils:

    qnorm(0.975)
    
  3. Setze die Werte in die Formel für das exakte Konfidenzintervall ein:

    \[\begin{split}\begin{align*} I_e(x_1, \dots, x_n) &= \left[ \frac{12 F_1}{80 - 12 + 1 + 12 F_1},\ \frac{(12 + 1) F_2}{80 - 12 + (12 + 1) F_2} \right]\\&\approx [0.07998, 0.24736] \end{align*}\end{split}\]

    mit den Quantilen der F-Verteilung

    \[\begin{split}\begin{align*} F_1 &:= F_{2S_n,\ 2(n - S_n + 1);\ \frac{\alpha}{2}} = F_{2\cdot 12, 2(80-12+1); 0.025}=0.499875, \\ F_2 &:= F_{2(S_n + 1),\ 2(n - S_n);\ 1 - \frac{\alpha}{2}} = F_{2(12+1),2(80-12);0.975}=1.719164 \end{align*}\end{split}\]

    R-Code zur Berechnung der Quantile:

    qf(0.025,2*12, 2*(80-12+1))
    qf(0.975,2*13, 2*(80-12))
    

Hinweise zur Berechnung in R#

# Lösung zu 2.
# Berechnung mit Formel
alpha <- 0.05
z     <- qnorm(1-alpha/2)
n     <- 80
phat  <- 12/80
Rn    <- z*sqrt( z^2 / (4*n^2) + phat*(1-phat) / n)
# Ausgabe Rn
cat("R_n= ", Rn, "\n\n")
ug <- n/(n+z^2) *( phat + z^2/(2*n) - Rn )
og <- n/(n+z^2) *( phat + z^2/(2*n) + Rn )
# Ausgabe Konf-Int
cat("asymptotisches Konfidenzinterall (Variante 1):")
c(ug,og)

# Berechnung mit R-Funktion
tst <- prop.test(12, 80, conf.level = 0.95, correct = FALSE)
cat("asymptotisches Konfidenzinterall (Variante 2):")
tst$conf.int

# Lösung zu 3.
# Berechnung mit Formel
n     <- 80
sn    <- 12
alpha <- 0.05
F1    <- qf(alpha/2,2*sn, 2*(n-sn+1))
F2    <- qf(1-alpha/2,2*(sn+1), 2*(n-sn))
ug    <- sn*F1/(n-sn+1+sn*F1)
og    <- (sn+1)*F2/(n-sn+(sn+1)*F2)
cat("exaktes Konfidenzinterall (Variante 1):")
c(ug,og)

# Berechnung mit R-Funktion
tst <- binom.test(sn, n, conf.level = 1-alpha)
cat("exaktes Konfidenzinterall (Variante 2):")
tst$conf.int
R_n=  0.08184597 
asymptotisches Konfidenzinterall (Variante 1):
  1. 0.0879404050616355
  2. 0.244132285613233
asymptotisches Konfidenzinterall (Variante 2):
  1. 0.0879404050616355
  2. 0.244132285613233
exaktes Konfidenzinterall (Variante 1):
  1. 0.0799815613097138
  2. 0.247364111592898
exaktes Konfidenzinterall (Variante 2):
  1. 0.0799815613097138
  2. 0.247364111592898