(Fehl-)Interpretationen#

Hier wollen wir hauptsächlich 2 Aspekte diskutieren:

  • die Asymmetrie der Hypothesen - Warum kann man nur die Alternativhypothese zeigen und nicht die Nullhypotese?

  • den Zusammenanhang zwischen Hypothesentest und Konfidenzintervallen - Ist das nicht in gewisser Weise das gleiche?

Asymmetrie der Hypothesen#

In der statistischen Testtheorie spielt die Nullhypothese \(H_0\) eine besondere Rolle: Sie wird beibehalten, bis ausreichende Evidenz gegen sie vorliegt.

Analogie aus dem Gerichtssaal:

„Im Zweifel für den Angeklagten“\(H_0\) entspricht der Unschuldsvermutung. Es gibt dann zwei Fälle:

  • Wenn starke Beweise gegen \(H_0\) (gegen die Unschuld) vorliegen, wird diese abgelehnt. Man geht dann davon aus, dass der Angeklagte schuldig ist (dass \(H_1\) gilt)

  • Wenn die Beweise gegen \(H_0\) (gegen die Unschuld) nicht ausreichen, wird der Angeklagte nicht verurteilt. Jedoch ist dann nicht klar, ob er wirklich unschuldig ist oder nur die richtigen Beweise fehlen.

Beispiel 1: Gauß-Test mit simulierten Daten#

Wir erzeugen \(n=20\) normalverteilte Zufallszahlen mit Erwartungswert \(\mu=5\) und Standardabweichung \(\sigma=2\). Dies sind also die wahren Werte.

Wir vergessen für den Moment, dass wir das wahre \(\mu\) kennen und prüfen nun die Hypothesen

\[ H_0: \mu=4 \quad\text{ und }\quad H_1:\mu \neq 4\]

mit eine Gauß-Test zum Signifikanzniveau \(\alpha=0.05\) gegeneinander.

set.seed(432)
mu_true <- 5
sigma <- 4
n <- 20
x <- rnorm(n, mean = mu_true, sd = sigma)

# Hypothesentest: H0: mu = 4 vs H1: mu ≠ 4
mu0 <- 4
t <- (mean(x) - mu0) / (sigma / sqrt(n))
p_value <- 2 * (1 - pnorm(abs(t)))

cat("Mittelwert der Stichprobe: ",mean(x),"\n")
cat("Testgröße: ",t,"\n")
cat("p-Wert: ",p_value,"\n\n")

if (p_value<0.05) {
    cat("Verwerfe H0, da der p-Wert kleiner also 0.05 ist")
} else {
    cat("Verwerfe H0 nicht, da der p-Wert nicht kleiner als 0.05 ist.")
}
Mittelwert der Stichprobe:  4.669624 
Testgröße:  0.7486625 
p-Wert:  0.4540606 
Verwerfe H0 nicht, da der p-Wert nicht kleiner als 0.05 ist.

Interpretation: Hier wird \(H_0:\mu=4\) nicht verworfen, da die Stichprobe nicht stark genug dagegen gesprochen hat. Nur weil wir es nicht verworfen haben, kann man nun aber nicht schlussfolgern, dass \(\mu=4\) gilt! Wir wissen sogar, dass dies falsch wäre, da eigentlich \(\mu=5\) wahr ist.

Beispiel 2: Gezinkte Münze#

Wir betrachten eine Münze mit 2 gleichen Seiten (zwei mal mit \(1\) beschriftet). Es gilt also \(X\sim \mathrm{Ber}(p)\) mit \(p=1\). Bei \(4\) mal Werfen ergibt sich (natürlich) \(4\) mal die \(1\). Wir wollen zum Niveau \(\alpha=0.05\) die (offensichtliche falsche) Nullhypothese \(p=\tfrac12\) testen.

  1. Signifikanzniveau: \(\alpha=0.05\)

  2. Hypothesen: \(H_0: p=\tfrac12\), \(\quad H_1:p\neq \tfrac12\)

  3. Testgröße: \(T=X_1+\dots+ X_4\sim \mathrm{Bin}(4,p)\); konkret \(t=4\)

  4. p-Wert: Die Verteilung von \(T\) falls \(p=\tfrac12\) wahr ist:

    \(x\)

    \(0\)

    \(1\)

    \(2\)

    \(3\)

    \(4\)

    \(\mathbb{P}(T=x)\)

    \(0.0625\)

    \(0.25\)

    \(0.375\)

    \(0.25\)

    \(0.0625\)

    Unter dieser Verteilung ist die Wahrscheinlichkeit, dass ein Fall auftritt, der mindestens so „extrem“ ist wie der vorliegende (4 mal 1 oder 4 mal 0) genau gleich \(0.0625+0.0625=0.125\), also p-Wert\(=0.125\).

  5. Entscheidung: p-Wert \(\geq 0.05\) daher wird \(H_0:p=\tfrac12\) nicht verworfen.

  6. richtige Interpretation: Die Daten der Stichprobe reichen nicht aus um \(H_0:p=\tfrac12\) zum Signifikanzniveau 0.05 zu verwerfen, also um zu zeigen, dass die Münze nicht fair ist.

    falsche Interpretation: Wir haben \(H_0\) gezeigt, also gezeigt, dass die Münze fair ist.

Tests vs Konfidenzintervall#

Es besteht ein enger Zusammenhang zwischen statistischen Tests und Konfidenzintervallen. Wir schauen uns dies beispielhaft für den Fall eines normalverteilten Merkmals mit bekannter Varianz an.

Sei \(X\sim\mathrm{N}(\mu,\sigma^2)\) ein Merkmal mit bekannter Varianz \(\sigma^2\).

Wir betrachten:

  • zweiseitigen Test, \(H_0: \mu=\mu_0\), \(H_1:\mu\neq \mu_0\quad\) (Gauß-Test)

  • zweiseitiges Konfidenzintervall \(I=[\bar X-z_{1-\alpha/2}\frac\sigma{\sqrt{n}} , \bar X +z_{1-\alpha/2} \frac\sigma{\sqrt{n}}]\)

jeweils mit gleichem \(\alpha\). Dann gilt:

\[\begin{split} \begin{align*} \mu_0\notin I & \quad \Leftrightarrow \quad \mu_0<\bar X -z_{1-\frac\alpha2}\frac\sigma{\sqrt{n}}\quad \text{ oder }\quad \mu_0>\bar X +z_{1-\frac\alpha2}\frac\sigma{\sqrt{n}} \\ & \quad \Leftrightarrow \quad \underbrace{\frac{\bar X -\mu_0}{\sigma}\sqrt{n}}_{T}>z_{1-\frac\alpha2}\quad \text{ oder }\quad \underbrace{\frac{\bar X -\mu_0}{\sigma}\sqrt{n}}_{T}< -z_{1-\frac\alpha2} \\ & \quad \Leftrightarrow \quad T\in K \end{align*} \end{split}\]

Wir sehen:

\(\qquad\)\(\mu_0\) liegt nicht im Konfidenzintervall \(I\) \(\qquad\Leftrightarrow\qquad\) \(H_0:\mu=\mu_0\) wird im Test abgelehnt

Ein Test und ein Konfidenzintervall sind also in gewisser Weise das gleiche, nur aus anderen Blickwinkeln betrachtet!