Konfidenzintervalle für unbekannte Wahrscheinlichkeiten#
Problemstellung#
Wir betrachten ein zufälliges Ereignis \(A\), welches mit unbekannter Wahrscheinlichkeit \(p \in [0,1]\) eintritt, d.h. \(\mathbb{P}(A) = p\).
Zur Schätzung des Parameters betrachten wir \(n\) unabhängige Versuchswiederholungen.
Modellierung: \(n\) unabhängige, mit \(p\) Bernoulli-verteilte Zufallsvariablen \(X_1, \dots, X_n\) (dies ist die mathematische Stichprobe).
Erinnerung: Wegen \(\mathbb{E}(X) = p\) ist \(T = \bar{X}\) ein erwartungstreuer und konsistenter Schätzer für \(p\).
Gesucht: ein Konfidenzintervall zum Parameter \(\theta = p\).
Bezeichnungen
\(S_n= X_1+\dots+ X_n\) ist die Anzahl der „Erfolge“ (Anzahl der 1en in der Stichprobe)
\(\bar X= \frac{1}{n}S_n\) ist der Mittelwerte der Stichprobe / der Punktschätzer für \(p\) / der relative Anteil der „Erfolge“
Asymptotisches Konfidenzintervall#
Wir konstruieren ein asymptotisches Konfidenzintervall. Dies ist ein von \(n\) abhängiges Intervall \(I\), das für große \(n\) näherungsweise die Ungleichung
erfüllt.
Grundidee: Nutze den zentralen Grenzwertsatz (ZGW):
Dieser erlaubt es, die Verteilung von Stichprobenfunktionen mit Hilfe der Normalverteilung zu approximieren.
Die Approximation gilt nur für große \(n\), daher der Name asymptotisches Intervall.
Die verschiedenen Fälle:
Zweiseitiger Fall
\[ I_a(X_1, \dots, X_n) = \left[ \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} - R_n \right) \ ,\ \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} + R_n \right) \right] \]wobei \(z = z_{1 - \frac{\alpha}{2}}\) und
\[ R_n= z \cdot \sqrt{ \frac{z^2}{4n^2} + \frac{\bar{X}(1 - \bar{X})}{n} } \]Einseitiger Fall
\[ I_a(X_1, \dots, X_n) = \left[ 0\ ,\ \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} +z \cdot \sqrt{ \frac{z^2}{4n^2} + \frac{\bar{X}(1 - \bar{X})}{n} } \right) \right] \]oder
\[ I_a(X_1, \dots, X_n) = \left[ \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} - z \cdot \sqrt{ \frac{z^2}{4n^2} + \frac{\bar{X}(1 - \bar{X})}{n} }\right)\ ,\ 1 \right] \]wobei \(z = z_{1 - \alpha}\)
Diese Form des asymptotischen Konfidenzintervalls wird manchmal auch Wilson-Intervall genannt.
Exaktes Konfidenzintervall#
Ein exaktes Konfidenzintervall für eine unbekannte Wahrscheinlichkeit \(p\) beim Konfidenzniveau \(1 - \alpha\).
Folgende Formeln sind für beliebige Stichprobengrößen \(n\) anwendbar (im Gegensatz zum asymptotischen Intervall)!
Zweiseitiger Fall
\[ I_e(X_1, \dots, X_n) = \left[ \frac{S_n F_1}{n - S_n + 1 + S_n F_1},\ \frac{(S_n + 1) F_2}{n - S_n + (S_n + 1) F_2} \right] \]mit den Quantilen der F-Verteilung
\[ F_1 := F_{2S_n,\ 2(n - S_n + 1);\ \frac{\alpha}{2}}, \quad F_2 := F_{2(S_n + 1),\ 2(n - S_n);\ 1 - \frac{\alpha}{2}} \]Einseitiger Fall
\[ I_e(X_1, \dots, X_n) = \left[ 0\ ,\ \frac{(S_n + 1) F_2}{n - S_n + (S_n + 1) F_2} \right] \]mit dem Quantil der F-Verteilung
\[ F_2 := F_{2(S_n + 1),\ 2(n - S_n);\ 1 - \alpha} \]oder
\[ I_e(X_1, \dots, X_n) = \left[ \frac{S_n F_1}{n - S_n + 1 + S_n F_1}\ ,\ 1 \right] \]mit dem Quantil der F-Verteilung
\[ F_1 := F_{2S_n,\ 2(n - S_n + 1);\ \alpha} \]
Beispiel#
Beispiel: Qualitätskontrolle bei Glühbirnen
Ein Hersteller möchte überprüfen, wie zuverlässig seine Glühbirnen sind. Aus der laufenden Produktion werden n = 80 Glühbirnen zufällig ausgewählt und getestet. Es zeigt sich, dass 12 Glühbirnen defekt sind.
Aufgabenstellung
Schätze die Wahrscheinlichkeit \( p \), dass eine Glühbirne defekt ist.
Bestimme ein asymptotisches zweiseitiges Konfidenzintervall für \(p\) zum Niveau \(1 - \alpha = 0.95\).
Berechne ein exaktes zweiseitiges Konfidenzintervall für \(p\) mit dem gleichen Konfidenzniveau.
Gegebene Werte
\(\alpha=0.05\)
Stichprobengröße: \(n = 80\)
Anzahl defekter Glühbirnen: \(12\)
Anteil defekter Glühbirnen:\( \bar{x} = \frac{12}{80} = 0.15\)
Lösung
\(p=\bar x= 0.15\)
Setze die Werte in die Formel für das asymptotische Konfidenzintervall ein
\[\begin{split}\begin{align*} I_a(x_1, \dots, x_n) &= \left[ \frac{80}{80 + z^2} \left( 0.15 + \frac{z^2}{2\cdot 80} - R_n \right) \ ,\ \frac{80}{80 + z^2} \left( 0.15 + \frac{z^2}{2\cdot 80} + R_n \right) \right] \\ &\approx [0.08794 \ , \ 0.24413] \end{align*} \end{split}\]wobei \(z = z_{1 - \frac{0.05}{2}}=z_{0.975}=1.96\) und
\[ R_n= z \cdot \sqrt{ \frac{z^2}{4\cdot 80^2} + \frac{0.15\cdot 0.85}{80} } \approx 0.081846 \]R-Code zur Berechnung des Quantils:
qnorm(0.975)
Setze die Werte in die Formel für das exakte Konfidenzintervall ein:
\[\begin{split}\begin{align*} I_e(x_1, \dots, x_n) &= \left[ \frac{12 F_1}{80 - 12 + 1 + 12 F_1},\ \frac{(12 + 1) F_2}{80 - 12 + (12 + 1) F_2} \right]\\&\approx [0.07998, 0.24736] \end{align*}\end{split}\]mit den Quantilen der F-Verteilung
\[\begin{split}\begin{align*} F_1 &:= F_{2S_n,\ 2(n - S_n + 1);\ \frac{\alpha}{2}} = F_{2\cdot 12, 2(80-12+1); 0.025}=0.499875, \\ F_2 &:= F_{2(S_n + 1),\ 2(n - S_n);\ 1 - \frac{\alpha}{2}} = F_{2(12+1),2(80-12);0.975}=1.719164 \end{align*}\end{split}\]R-Code zur Berechnung der Quantile:
qf(0.025,2*12, 2*(80-12+1)) qf(0.975,2*13, 2*(80-12))
Hinweise zur Berechnung in R#
# Lösung zu 2.
# Berechnung mit Formel
alpha <- 0.05
z <- qnorm(1-alpha/2)
n <- 80
phat <- 12/80
Rn <- z*sqrt( z^2 / (4*n^2) + phat*(1-phat) / n)
# Ausgabe Rn
cat("R_n= ", Rn, "\n\n")
ug <- n/(n+z^2) *( phat + z^2/(2*n) - Rn )
og <- n/(n+z^2) *( phat + z^2/(2*n) + Rn )
# Ausgabe Konf-Int
cat("asymptotisches Konfidenzinterall (Variante 1):")
c(ug,og)
# Berechnung mit R-Funktion
tst <- prop.test(12, 80, conf.level = 0.95, correct = FALSE)
cat("asymptotisches Konfidenzinterall (Variante 2):")
tst$conf.int
# Lösung zu 3.
# Berechnung mit Formel
n <- 80
sn <- 12
alpha <- 0.05
F1 <- qf(alpha/2,2*sn, 2*(n-sn+1))
F2 <- qf(1-alpha/2,2*(sn+1), 2*(n-sn))
ug <- sn*F1/(n-sn+1+sn*F1)
og <- (sn+1)*F2/(n-sn+(sn+1)*F2)
cat("exaktes Konfidenzinterall (Variante 1):")
c(ug,og)
# Berechnung mit R-Funktion
tst <- binom.test(sn, n, conf.level = 1-alpha)
cat("exaktes Konfidenzinterall (Variante 2):")
tst$conf.int
R_n= 0.08184597
asymptotisches Konfidenzinterall (Variante 1):
- 0.0879404050616355
- 0.244132285613233
asymptotisches Konfidenzinterall (Variante 2):
- 0.0879404050616355
- 0.244132285613233
exaktes Konfidenzinterall (Variante 1):
- 0.0799815613097138
- 0.247364111592898
exaktes Konfidenzinterall (Variante 2):
- 0.0799815613097138
- 0.247364111592898