# Konfidenzintervalle für unbekannte Wahrscheinlichkeiten

## Problemstellung

- Wir betrachten ein zufälliges Ereignis $A$, welches mit **unbekannter** Wahrscheinlichkeit $p \in [0,1]$ eintritt, d.h. $\mathbb{P}(A) = p$.
- Zur Schätzung des Parameters betrachten wir $n$ unabhängige Versuchswiederholungen.
- Modellierung: $n$ unabhängige, mit $p$ Bernoulli-verteilte Zufallsvariablen $X_1, \dots, X_n$ (dies ist die mathematische Stichprobe).
- Erinnerung: Wegen $\mathbb{E}(X) = p$ ist $T = \bar{X}$ ein erwartungstreuer und konsistenter Schätzer für $p$.
- **Gesucht:** ein Konfidenzintervall zum Parameter $\theta = p$.

**Bezeichnungen**
- $S_n= X_1+\dots+ X_n$ ist die Anzahl der "Erfolge" (Anzahl der 1en in der Stichprobe)
- $\bar X= \frac{1}{n}S_n$ ist der Mittelwerte der Stichprobe / der Punktschätzer für $p$ / der relative Anteil der "Erfolge"

---

## Asymptotisches Konfidenzintervall

Wir konstruieren ein *asymptotisches* Konfidenzintervall. Dies ist ein von $n$ abhängiges Intervall $I$, das für große $n$ **näherungsweise** die Ungleichung

$$
\mathbb{P}(\theta \in I) \geq 1 - \alpha
$$

erfüllt.

**Grundidee: Nutze den zentralen Grenzwertsatz (ZGW):**

- Dieser erlaubt es, die Verteilung von Stichprobenfunktionen mit Hilfe der Normalverteilung zu approximieren.
- Die Approximation gilt **nur für große $n$**, daher der Name **asymptotisches** Intervall.

Die verschiedenen Fälle:

- **Zweiseitiger Fall**

  $$
  I_a(X_1, \dots, X_n) = 
  \left[
  \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} -  R_n \right) \ ,\  
  \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} +  R_n \right)
  \right]
  $$

  wobei $z = z_{1 - \frac{\alpha}{2}}$ und

  $$
  R_n= z \cdot \sqrt{ \frac{z^2}{4n^2} + \frac{\bar{X}(1 - \bar{X})}{n} } 
  $$


- **Einseitiger Fall**

  $$
  I_a(X_1, \dots, X_n) = 
  \left[
  0\ ,\  
  \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} +z \cdot \sqrt{ \frac{z^2}{4n^2} + \frac{\bar{X}(1 - \bar{X})}{n} } \right)
  \right]
  $$

  oder

  $$
  I_a(X_1, \dots, X_n) = 
  \left[
  \frac{n}{n + z^2} \left( \bar{X} + \frac{z^2}{2n} - z \cdot \sqrt{ \frac{z^2}{4n^2} + \frac{\bar{X}(1 - \bar{X})}{n} }\right)\ ,\  
  1
  \right]
  $$

  wobei $z = z_{1 - \alpha}$

Diese Form des asymptotischen Konfidenzintervalls wird manchmal auch **Wilson-Intervall** genannt. 

## Exaktes Konfidenzintervall

Ein **exaktes Konfidenzintervall** für eine unbekannte Wahrscheinlichkeit $p$ beim Konfidenzniveau $1 - \alpha$.

Folgende Formeln sind für beliebige **Stichprobengrößen $n$** anwendbar (im Gegensatz zum asymptotischen Intervall)!

- **Zweiseitiger Fall**

  $$
  I_e(X_1, \dots, X_n) =  
  \left[
  \frac{S_n F_1}{n - S_n + 1 + S_n F_1},\ 
  \frac{(S_n + 1) F_2}{n - S_n + (S_n + 1) F_2}
  \right]
  $$

  mit den Quantilen der F-Verteilung

  
  $$
  F_1 := F_{2S_n,\ 2(n - S_n + 1);\ \frac{\alpha}{2}}, \quad
  F_2 := F_{2(S_n + 1),\ 2(n - S_n);\ 1 - \frac{\alpha}{2}}
  $$

- **Einseitiger Fall**

  $$
  I_e(X_1, \dots, X_n) =  
  \left[
  0\ ,\  
  \frac{(S_n + 1) F_2}{n - S_n + (S_n + 1) F_2}
  \right]
  $$

  mit dem Quantil der F-Verteilung

  $$
  F_2 := F_{2(S_n + 1),\ 2(n - S_n);\ 1 - \alpha}
  $$

  **oder**

  $$
  I_e(X_1, \dots, X_n) =  
  \left[
  \frac{S_n F_1}{n - S_n + 1 + S_n F_1}\ ,\  
  1
  \right]
  $$

  mit dem Quantil der F-Verteilung

  $$ 
  F_1 := F_{2S_n,\ 2(n - S_n + 1);\ \alpha}
  $$

  


## Beispiel


:::{admonition} Beispiel: Qualitätskontrolle bei Glühbirnen
:class: beispiel

Ein Hersteller möchte überprüfen, wie zuverlässig seine Glühbirnen sind. Aus der laufenden Produktion werden **n = 80** Glühbirnen zufällig ausgewählt und getestet. Es zeigt sich, dass **12 Glühbirnen defekt** sind.

---

**Aufgabenstellung**

1. Schätze die Wahrscheinlichkeit $ p $, dass eine Glühbirne defekt ist.
2. Bestimme ein **asymptotisches zweiseitiges Konfidenzintervall** für $p$ zum Niveau $1 - \alpha = 0.95$.
3. Berechne ein **exaktes zweiseitiges Konfidenzintervall** für $p$ mit dem gleichen Konfidenzniveau.

**Gegebene Werte**

- $\alpha=0.05$
- Stichprobengröße: $n = 80$
- Anzahl defekter Glühbirnen: $12$
- Anteil defekter Glühbirnen:$ \bar{x} = \frac{12}{80} = 0.15$


**Lösung**

1. $p=\bar x= 0.15$
2. Setze die Werte in die Formel für das asymptotische Konfidenzintervall ein

   $$\begin{align*}
   I_a(x_1, \dots, x_n) &= 
   \left[
   \frac{80}{80 + z^2} \left( 0.15 + \frac{z^2}{2\cdot 80} -  R_n \right) \ ,\  
   \frac{80}{80 + z^2} \left( 0.15 + \frac{z^2}{2\cdot 80} +  R_n \right)
   \right] \\
   &\approx [0.08794 \ , \ 0.24413]
   \end{align*}
   $$

   wobei $z = z_{1 - \frac{0.05}{2}}=z_{0.975}=1.96$ und

   $$
   R_n= z \cdot \sqrt{ \frac{z^2}{4\cdot 80^2} + \frac{0.15\cdot 0.85}{80} } \approx 0.081846
   $$

   *R-Code zur Berechnung des Quantils:*

   ```r

   qnorm(0.975)

   ```

3. Setze die Werte in die Formel für das exakte Konfidenzintervall ein:

   $$\begin{align*}
   I_e(x_1, \dots, x_n) &=  
   \left[
   \frac{12 F_1}{80 - 12 + 1 + 12 F_1},\ 
   \frac{(12 + 1) F_2}{80 - 12 + (12 + 1) F_2}
   \right]\\&\approx [0.07998, 0.24736]
   \end{align*}$$

   mit den Quantilen der F-Verteilung

  
   $$\begin{align*}
   F_1 &:= F_{2S_n,\ 2(n - S_n + 1);\ \frac{\alpha}{2}} = F_{2\cdot 12, 2(80-12+1); 0.025}=0.499875, \\
   F_2 &:= F_{2(S_n + 1),\ 2(n - S_n);\ 1 - \frac{\alpha}{2}} = F_{2(12+1),2(80-12);0.975}=1.719164
   \end{align*}$$

   *R-Code zur Berechnung der Quantile:*

   ```r

   qf(0.025,2*12, 2*(80-12+1))
   qf(0.975,2*13, 2*(80-12))

   ```


   
---

:::

### Hinweise zur Berechnung in R



In [8]:
# Lösung zu 2.
# Berechnung mit Formel
alpha <- 0.05
z     <- qnorm(1-alpha/2)
n     <- 80
phat  <- 12/80
Rn    <- z*sqrt( z^2 / (4*n^2) + phat*(1-phat) / n)
# Ausgabe Rn
cat("R_n= ", Rn, "\n\n")
ug <- n/(n+z^2) *( phat + z^2/(2*n) - Rn )
og <- n/(n+z^2) *( phat + z^2/(2*n) + Rn )
# Ausgabe Konf-Int
cat("asymptotisches Konfidenzinterall (Variante 1):")
c(ug,og)

# Berechnung mit R-Funktion
tst <- prop.test(12, 80, conf.level = 0.95, correct = FALSE)
cat("asymptotisches Konfidenzinterall (Variante 2):")
tst$conf.int

# Lösung zu 3.
# Berechnung mit Formel
n     <- 80
sn    <- 12
alpha <- 0.05
F1    <- qf(alpha/2,2*sn, 2*(n-sn+1))
F2    <- qf(1-alpha/2,2*(sn+1), 2*(n-sn))
ug    <- sn*F1/(n-sn+1+sn*F1)
og    <- (sn+1)*F2/(n-sn+(sn+1)*F2)
cat("exaktes Konfidenzinterall (Variante 1):")
c(ug,og)

# Berechnung mit R-Funktion
tst <- binom.test(sn, n, conf.level = 1-alpha)
cat("exaktes Konfidenzinterall (Variante 2):")
tst$conf.int

R_n=  0.08184597 

asymptotisches Konfidenzinterall (Variante 1):

asymptotisches Konfidenzinterall (Variante 2):

exaktes Konfidenzinterall (Variante 1):

exaktes Konfidenzinterall (Variante 2):