Tests für unbekannte Wahrscheinlichkeiten#
Die hier behandelten Tests sind Parametertests. Insbesondere geht es hier um Bernoulli-verteiteilte Merkmale, wobei Hypothesen bezüglich des Parameters \(p\) geprüft werden sollen. Bei der Durchführung der Tests halten wir uns and die bekannte Vorgehenweise. Im Folgenden geht es um die zugehörigen konkreten Hypothesen, Testgrößen, kritischen Bereiche und p-Werte.
Ein Stichprobe#
Gegeben#
Sei \(A\) ein zufälliges Ereignis mit unbekannter Wahrscheinlichkeit \(\mathbb{P}(A) = p \in [0,1]\)
Beobachtet wird eine Stichprobe \(X_1, \dots, X_n\) mit:
\(X_i \sim \mathrm{Ber}(p)\) (Bernoulli-Verteilung)
Interpretation:
\(X_i = 1\): Ereignis \(A\) tritt im \(i\)-ten Versuch ein
\(X_i = 0\): Ereignis \(A\) tritt im \(i\)-ten Versuch nicht ein
Wichtige Kennzahlen:
\(\bar X = \frac{1}{n} \sum_{i=1}^n X_i\): relative Häufigkeit von \(A\)
\(H_n = \sum_{i=1}^n X_i = n \cdot \bar X\): absolute Häufigkeit von \(A\)
Ziel: Teste, ob \(p = p_0\), \(p > p_0\), oder \(p < p_0\), wobei \(p_0 \in (0,1)\) vorgegeben ist.
Testgrößen und Verteilungen#
Fall |
Hypothese für |
Voraussetzung |
Testgröße \(T\) |
Verteilung unter \(H_0: p = p_0\) |
---|---|---|---|---|
(a) |
\(p\) |
\(n\) groß |
\(\frac{\bar X - p_0}{\sqrt{p_0(1 - p_0)/n}}\) |
näherungsweise \(\mathrm{N}(0,1)\) |
(b) |
\(p\) |
- |
\(H_n\) |
exakt: \(\mathrm{Bin}(n, p_0)\) |
Fall (a): asymptotischer Test basierend auf dem zentralen Grenzwertsatz.
Fall (b): exakter Test basierend auf der Binomialverteilung.
Für Fall (b) gilt:
Kritische Bereiche#
Fall (a) – Normalapproximation#
\(H_0\) |
\(H_1\) |
Kritischer Bereich \(K\) |
---|---|---|
\(p = p_0 \) |
\( p \ne p_0 \) |
\( (-\infty, -z_{1-\frac{\alpha}{2}}) \cup (z_{1-\frac{\alpha}{2}}, \infty) \) |
\(p \leq p_0\) |
\( p > p_0 \) |
\( (z_{1-\alpha}, \infty) \) |
\(p \geq p_0\) |
\( p < p_0 \) |
\( (-\infty, -z_{1-\alpha}) \) |
Fall (b) – Exakter Binomialtest#
\( H_0 \) |
\( H_1 \) |
Kritischer Bereich \(K\) |
---|---|---|
\( p = p_0 \) |
\( p \ne p_0 \) |
\( [0, m_0(\frac{\alpha}{2})] \cup [n_0(\frac{\alpha}{2}), n] \) |
\( p \leq p_0 \) |
\( p > p_0 \) |
\( [n_0(\alpha), n] \) |
\( p \geq p_0 \) |
\( p < p_0 \) |
\( [0, m_0(\alpha)] \) |
Dabei sind:
Bemerkungen
Für den asymptotischen Test gibt es eine (etwas umstrittene) Faustregel zur Prüfung, ob \(n\) groß genug ist, um ihn anwenden zu können:
\[ n \cdot \bar{x} \cdot (1 - \bar{x}) > 9 \]wobei \(\bar{x}\) die relative Häufigkeit des Eintretens von \(A\) in der konkreten Stichprobe ist.
Für den exakten Test gibt es Umformungen, um die Summen effizienter zu berechnen:
- \[ \sum_{m = k}^n q_m \leq \alpha \quad \Leftrightarrow \quad \sum_{m = 0}^{k - 1} q_m \geq 1 - \alpha \]
Diese Umformung ist günstiger, wenn \(p_0\) nahe bei 0 liegt.
- \[ \sum_{m = 0}^k q_m \leq \alpha \quad \Leftrightarrow \quad \sum_{m = k + 1}^{n} q_m \geq 1 - \alpha \]
Diese Umformung ist günstiger, wenn \(p_0\) nahe bei 1 liegt.
p-Wert#
Fall (a) – Asymptotischer Test (Normalapproximation)#
\(H_0\) |
\(H_1\) |
p-Wert |
R-Befehl |
---|---|---|---|
\(p = p_0\) |
\(p \ne p_0\) |
\(2 \cdot (1 - \Phi(\abs{t}))\) |
|
\(p \leq p_0\) |
\(p > p_0\) |
\(1 - \Phi(t)\) |
|
\(p \geq p_0\) |
\(p < p_0\) |
\(\Phi(t)\) |
|
Dabei ist \(t\) die konkrete Testgröße
und \(\Phi\) ist die Verteilungsfunktion der Standardnormalverteilung.
Fall (b) – Exakter Binomialtest#
\(H_0\) |
\(H_1\) |
p-Wert |
R-Befehl |
---|---|---|---|
\(p = p_0\) |
\(p \ne p_0\) |
\(2 \cdot \min\left( \mathbb{P}(H_n \leq t),\ \mathbb{P}(H_n \geq h) \right)\) |
|
\(p \leq p_0\) |
\(p > p_0\) |
\(\mathbb{P}(H_n \geq t)\) |
|
\(p \geq p_0\) |
\(p < p_0\) |
\(\mathbb{P}(H_n \leq t)\) |
|
Dabei ist die konkrete Testgröße \(t\) die beobachtete absolute Häufigkeit (z. B. Anzahl Erfolge in \(n\) Versuchen).
Beachte, dass z.B. in Zeile 2 wegen \(\mathbb{P}(H_n \geq t)=1-\mathbb{P}(H_n < t)=1-\mathbb{P}(H_n \leq t-1)\) der Wert \(t-1\) im R-Befehl genutzt werden muss.
Alternative R-Befehle unter Verwendung der Funkiton binom.test
:
binom.test(t, n, p = p0, alternative = "two.sided")$p.value
binom.test(t, n, p = p0, alternative = "greater")$p.value
binom.test(t, n, p = p0, alternative = "less")$p.value
Hinweise zur Umsetzung in R#
Hier schauen wir uns noch ein paar zusammenhängede Code-Zeilen an, welche zunächst zufällige Daten (aus der Bernoulli-Verteilung mit \(p=0.05\)) erzeugen und anschließend einen Test mit \(H_0:p=p_0\) (wobei \(p_0=0.5\)) durchführen.
Asymptotischer Test (Fall a):
Hier gibt es keine R-interne Funkition. Wir berechnen die Testgröße und den p-Wert „per Hand“.
n <- 100 set.seed(876) x <- rbinom(n, size = 1, prob = 0.55) p0 <- 0.5 phat <- mean(x) t <- (phat - p0) / sqrt(p0 * (1 - p0) / n) p_value <- 2 * (1 - pnorm(abs(t))) # zweiseitig
Exakter Test (Fall b):
n <- 100 set.seed(876) x <- rbinom(n, size = 1, prob = 0.55) p0 <- 0.5 binom.test(sum(x), n, p = p0, alternative = "two.sided")
Beispiel (Binomialtest)#
In jedem siebten Überraschungsei sind laut Herstellerangaben Pinguinfiguren enthalten.
Sven vermutet, dass die Pinguine seltener vorkommen und kauft daher 50 Eier.
Frage:
Bei welcher Anzahl von gefundenen Pinguinen wäre Svens Vermutung (zum Signifikanzniveau \(\alpha = 0{,}05\)) bestätigt?
Es ist ein exakter Test durchzuführen.
Lösung#
Modell:
\(X\): Ei enthält Pinguin
\(\Rightarrow X \sim \text{Ber}(p)\) mit
Signifikanzniveau: \(\alpha = 0{,}05\)
Hypothesen:
\(H_0: p \geq \frac{1}{7}\)
\(H_1: p < \frac{1}{7}\)
Testgröße: \(T = H_{50}\) (absolute Häufigkeit der Pinguine in 50 Eiern)
Kritischer Bereich:
\(m\)
0
1
2
3
4
5
6
…
\(q_m\)
0.0004
0.0037
0.0153
0.0408
0.0799
0.1225
0.1531
…
\(\sum q_0+\dots+q_m\)
0.0004
0.0042
0.0195
0.0603
0.1401
0.2626
0.4157
…
\(\Rightarrow \quad m_0(0{,}05) = 2 \quad \Rightarrow \quad K = [0\ ,\ m_0(0{,}05)] = [0\ ,\ 2]\)
Beachte: Die zweite Zeile der Tabelle enhält die Werte der Verteilungsfunktion. In R berechnet man diese mit
pbinom(0:50,size = 50,p=1/7)
.Entscheidung/Fazit:
Wenn weniger als 3 Pinguine gefunden werden, ist die Vermutung (zum Signifikanzniveau 0,05) bestätigt.
Zwei Stichproben#
Gegeben#
\(A\), \(B\) … zufällige Ereignisse mit \(\mathbb{P}(A) = p_1 \in [0,1]\), \(\quad\mathbb{P}(B) = p_2 \in [0,1]\)
mit Zufallsvariablen: \(X\sim \mathrm{Ber}(p_1)\) und \(Y\sim \mathrm{Ber}(p_2)\)
\(X_1, \dots, X_{n_1}\) … mathematische Stichprobe für Ereignis \(A\) bzw. für Merkmal \(X\)
\(Y_1, \dots, Y_{n_2}\) … mathematische Stichprobe für Ereignis \(B\) bzw. für Merkmal \(Y\)
\(\bar{X} = \frac{1}{n_1} \sum_{i=1}^{n_1} X_i\) … relative Häufigkeit von \(A\) bei \(n_1\) unabhängigen Versuchswiederholungen
\(\bar{Y} = \frac{1}{n_2} \sum_{i=1}^{n_2} Y_i\) … relative Häufigkeit von \(B\) bei \(n_2\) unabhängigen Versuchswiederholungen
Die Messreihen für \(p_1\) und \(p_2\) (also die Zufallsvariablen X_1,\dots,X_{n_1},Y_1,\dots,Y_{n_2}$) sind unabhängig
Der zentrale Grenzwertsatz liefert für große \(n_1\) und \(n_2\) den folgenden Test.
Testgröße#
Voraussetzung |
Testgröße \(T\) |
Verteilung von \(T\) unter \(H_0\) |
---|---|---|
\(n_1, n_2\) groß |
\(\displaystyle T = \frac{\bar{X} - \bar{Y}}{\sqrt{\hat{p}(1 - \hat{p}) \cdot \frac{n_1 + n_2}{n_1 n_2}}}\) |
näherungsweise \(\mathcal{N}(0,1)\) |
mit
Kritische Bereiche#
\(H_0\) |
\(H_1\) |
Kritischer Bereich \(K\) |
---|---|---|
\(p_1 = p_2\) |
\(p_1 \ne p_2\) |
\((-\infty, -z_{1-\frac{\alpha}{2}}) \cup (z_{1-\frac{\alpha}{2}}, \infty)\) |
\(p_1 \leq p_2\) |
\(p_1 > p_2\) |
\((z_{1-\alpha}, \infty)\) |
\(p_1 \geq p_2\) |
\(p_1 < p_2\) |
\((-\infty, -z_{1-\alpha})\) |
p-Werte und R-Befehle#
\(H_0\) |
\(H_1\) |
p-Wert |
R-Befehl |
---|---|---|---|
\(p_1 = p_2\) |
\(p_1 \ne p_2\) |
\(2 \cdot (1 - \Phi(\abs{t}))\) |
|
\(p_1 \leq p_2\) |
\(p_1 > p_2\) |
\(1 - \Phi(t)\) |
|
\(p_1 \geq p_2\) |
\(p_1 < p_2\) |
\(\Phi(t)\) |
|
Dabei ist \(t\) die konkrete Testgröße und \(\Phi\) die Verteilungsfunktion der Standardnormalverteilung \(\mathrm{N}(0,1)\).
Beispiel#
Bei der Herstellung von Zahnprothesen wird der Ausschussanteil untersucht. Eine Stichprobe liefert:
Verfahren |
Stichprobenumfang |
Ausschussanzahl |
---|---|---|
A |
\(400\) |
\(29\) |
B |
\(500\) |
\(25\) |
Lässt sich mit einem Test zum Signifikanzniveau \(0{,}05\) nachweisen, dass das neue Herstellungsverfahren (B) gegenüber dem alten Verfahren (A) eine Verbesserung ist?
Lösung:#
Notation
\(X \sim \mathrm{Ber}(p_1)\) … Verfahren A liefert Ausschuss (\(X=1\)) oder nicht (\(X=0\))
\(Y \sim \mathrm{Ber}(p_2)\) … Verfahren B liefert Ausschuss (\(Y=1\)) oder nicht (\(Y=0\))
Konkrete Stichproben:
\(\mathbf{x} = (x_1, \dots, x_{400})\) enthält \(29\) Einsen und \(371\) Nullen
\(\mathbf{y} = (y_1, \dots, y_{500})\) enthält \(25\) Einsen und \(475\) Nullen
Daraus folgt:
Lösungsschritte
Signifikanzniveau:
$\( \alpha = 0{,}05 \)$Hypothesen:
\[ H_0: p_1 \leq p_2 \quad \text{vs.} \quad H_1: p_1 > p_2 \](Ziel: zeigen, dass B besser ist als A, also \(p_1 > p_2\))
Teststatistik:
\[ T = \frac{\bar{X} - \bar{Y}}{\sqrt{\hat{p}(1 - \hat{p}) \cdot \frac{n_1 + n_2}{n_1 n_2}}} \]mit:
\[ \hat{p} = \frac{n_1 \bar{X} + n_2 \bar{Y}}{n_1 + n_2} \]\(T\) ist näherungsweise standardnormalverteilt \(\mathrm{N}(0,1)\) unter \(H_0\).
Konkreter Wert:
\[ \hat{p} = \frac{29 + 25}{900} = 0.06 \]\[ t = \frac{\frac{29}{400} - \frac{25}{500}}{\sqrt{0.06 \cdot 0.94 \cdot \frac{900}{400 \cdot 500}}} = 1.412 \]Kritischer Bereich:
\[ K = (z_{1-\alpha}, \infty) = (1.645, \infty) \]Entscheidung:
\[ t = 1.412 \notin K\qquad \Rightarrow\qquad H_0 \text{ wird nicht abgelehnt} \]Interpretation:
Die Nullhypothese, dass der Ausschussanteil von Verfahren B mindestens so groß ist wie der Ausschussanteil von Verfahren A, kann zum Signifikanzniveau \(0{,}05\) nicht verworfen werden.
Es gibt also keinen signifikanten Beleg dafür, dass Verfahren B besser ist.
R-Code zur Berechnung des Testwerts und p-Werts
n1 <- 400
n2 <- 500
x1 <- 29
x2 <- 25
phat1 <- x1 / n1
phat2 <- x2 / n2
phat <- (x1 + x2) / (n1 + n2)
t <- (phat1 - phat2) / sqrt(phat * (1 - phat) * (n1 + n2) / (n1 * n2))
t # ergibt etwa 1.412
# Einseitiger p-Wert für H1: p1 > p2
p_value <- 1 - pnorm(t)
p_value # ergibt etwa 0.078