(Fehl-)Interpretationen#
Hier wollen wir hauptsächlich 2 Aspekte diskutieren:
die Asymmetrie der Hypothesen - Warum kann man nur die Alternativhypothese zeigen und nicht die Nullhypotese?
den Zusammenanhang zwischen Hypothesentest und Konfidenzintervallen - Ist das nicht in gewisser Weise das gleiche?
Asymmetrie der Hypothesen#
In der statistischen Testtheorie spielt die Nullhypothese \(H_0\) eine besondere Rolle: Sie wird beibehalten, bis ausreichende Evidenz gegen sie vorliegt.
Analogie aus dem Gerichtssaal:
„Im Zweifel für den Angeklagten“ → \(H_0\) entspricht der Unschuldsvermutung. Es gibt dann zwei Fälle:
Wenn starke Beweise gegen \(H_0\) (gegen die Unschuld) vorliegen, wird diese abgelehnt. Man geht dann davon aus, dass der Angeklagte schuldig ist (dass \(H_1\) gilt)
Wenn die Beweise gegen \(H_0\) (gegen die Unschuld) nicht ausreichen, wird der Angeklagte nicht verurteilt. Jedoch ist dann nicht klar, ob er wirklich unschuldig ist oder nur die richtigen Beweise fehlen.
Beispiel 1: Gauß-Test mit simulierten Daten#
Wir erzeugen \(n=20\) normalverteilte Zufallszahlen mit Erwartungswert \(\mu=5\) und Standardabweichung \(\sigma=2\). Dies sind also die wahren Werte.
Wir vergessen für den Moment, dass wir das wahre \(\mu\) kennen und prüfen nun die Hypothesen
mit eine Gauß-Test zum Signifikanzniveau \(\alpha=0.05\) gegeneinander.
set.seed(432)
mu_true <- 5
sigma <- 4
n <- 20
x <- rnorm(n, mean = mu_true, sd = sigma)
# Hypothesentest: H0: mu = 4 vs H1: mu ≠ 4
mu0 <- 4
t <- (mean(x) - mu0) / (sigma / sqrt(n))
p_value <- 2 * (1 - pnorm(abs(t)))
cat("Mittelwert der Stichprobe: ",mean(x),"\n")
cat("Testgröße: ",t,"\n")
cat("p-Wert: ",p_value,"\n\n")
if (p_value<0.05) {
cat("Verwerfe H0, da der p-Wert kleiner also 0.05 ist")
} else {
cat("Verwerfe H0 nicht, da der p-Wert nicht kleiner als 0.05 ist.")
}
Mittelwert der Stichprobe: 4.669624
Testgröße: 0.7486625
p-Wert: 0.4540606
Verwerfe H0 nicht, da der p-Wert nicht kleiner als 0.05 ist.
Interpretation: Hier wird \(H_0:\mu=4\) nicht verworfen, da die Stichprobe nicht stark genug dagegen gesprochen hat. Nur weil wir es nicht verworfen haben, kann man nun aber nicht schlussfolgern, dass \(\mu=4\) gilt! Wir wissen sogar, dass dies falsch wäre, da eigentlich \(\mu=5\) wahr ist.
Beispiel 2: Gezinkte Münze#
Wir betrachten eine Münze mit 2 gleichen Seiten (zwei mal mit \(1\) beschriftet). Es gilt also \(X\sim \mathrm{Ber}(p)\) mit \(p=1\). Bei \(4\) mal Werfen ergibt sich (natürlich) \(4\) mal die \(1\). Wir wollen zum Niveau \(\alpha=0.05\) die (offensichtliche falsche) Nullhypothese \(p=\tfrac12\) testen.
Signifikanzniveau: \(\alpha=0.05\)
Hypothesen: \(H_0: p=\tfrac12\), \(\quad H_1:p\neq \tfrac12\)
Testgröße: \(T=X_1+\dots+ X_4\sim \mathrm{Bin}(4,p)\); konkret \(t=4\)
p-Wert: Die Verteilung von \(T\) falls \(p=\tfrac12\) wahr ist:
\(x\)
\(0\)
\(1\)
\(2\)
\(3\)
\(4\)
\(\mathbb{P}(T=x)\)
\(0.0625\)
\(0.25\)
\(0.375\)
\(0.25\)
\(0.0625\)
Unter dieser Verteilung ist die Wahrscheinlichkeit, dass ein Fall auftritt, der mindestens so „extrem“ ist wie der vorliegende (4 mal 1 oder 4 mal 0) genau gleich \(0.0625+0.0625=0.125\), also p-Wert\(=0.125\).
Entscheidung: p-Wert \(\geq 0.05\) daher wird \(H_0:p=\tfrac12\) nicht verworfen.
richtige Interpretation: Die Daten der Stichprobe reichen nicht aus um \(H_0:p=\tfrac12\) zum Signifikanzniveau 0.05 zu verwerfen, also um zu zeigen, dass die Münze nicht fair ist.
falsche Interpretation: Wir haben \(H_0\) gezeigt, also gezeigt, dass die Münze fair ist.
Tests vs Konfidenzintervall#
Es besteht ein enger Zusammenhang zwischen statistischen Tests und Konfidenzintervallen. Wir schauen uns dies beispielhaft für den Fall eines normalverteilten Merkmals mit bekannter Varianz an.
Sei \(X\sim\mathrm{N}(\mu,\sigma^2)\) ein Merkmal mit bekannter Varianz \(\sigma^2\).
Wir betrachten:
zweiseitigen Test, \(H_0: \mu=\mu_0\), \(H_1:\mu\neq \mu_0\quad\) (Gauß-Test)
zweiseitiges Konfidenzintervall \(I=[\bar X-z_{1-\alpha/2}\frac\sigma{\sqrt{n}} , \bar X +z_{1-\alpha/2} \frac\sigma{\sqrt{n}}]\)
jeweils mit gleichem \(\alpha\). Dann gilt:
Wir sehen:
\(\qquad\)\(\mu_0\) liegt nicht im Konfidenzintervall \(I\) \(\qquad\Leftrightarrow\qquad\) \(H_0:\mu=\mu_0\) wird im Test abgelehnt
Ein Test und ein Konfidenzintervall sind also in gewisser Weise das gleiche, nur aus anderen Blickwinkeln betrachtet!