Fehler und Macht#
Fehlerarten bei Hypothesentests#
Wir betrachten einen Hypothesentest mit den beiden Hypothesen \(H_0:\vartheta\in\Theta_0\) und \(H_1:\vartheta\in\Theta_1\) zum Signifikanzniveau \(\alpha\). Bei der Anwendung des Tests können zwei Arten von Fehlentscheidungen auftreten:
Fehler 1. Art#
Die Nullhypothese \(H_0\) wird abgelehnt, obwohl sie wahr ist.
Dies bezeichnet man als Fehler 1. Art (oder Typ-I-Fehler oder \(\alpha\)-Fehler).
Die Wahrscheinlichkeit eines Fehlers 1. Art ist durch das Signifikanzniveau \(\alpha\) beschränkt:
Fehler 2. Art#
Die Nullhypothese \(H_0\) wird nicht abgelehnt, obwohl sie falsch ist.
Dies bezeichnet man als Fehler 2. Art (oder Typ-II-Fehler oder \(\beta\)-Fehler). Man hält hier fälschlicherweise an \(H_0\) fest. Wir sagen \(\beta\) ist eine Schranke für den Fehler 2. Art, falls
Übersicht der möglichen Entscheidungen#
\(H_0\) gilt |
\(H_1\) gilt |
|
---|---|---|
Test verwirft \(H_0\) |
Fehler 1. Art |
✅ korrekt |
Test verwirft \(H_0\) nicht |
✅ korrekt |
Fehler 2. Art |
Die Macht (Power) eines Tests#
Wir betrachten einen statistischen Test mit der Nullhypothese \(H_0: \vartheta \in \Theta_0\) und der Alternativhypothese \(H_1: \vartheta \in \Theta_1\) zum Signifikanzniveau \(\alpha\).
Per Konstruktion des Tests ist der Fehler 1. Art durch das Signifikanzniveau \(\alpha\) beschränkt. Mit diesem \(\alpha\) sorgt man dafür, dass der Test selten falschen Alarm schlägt, wenn \(H_0\) stimmt.
Der Fehler 2. Art wird apriori jedoch nicht kontrolliert. Er „ergibt“ sich aus den anderen Festlegungen. Die übliche Bezeichnung ist hier folgende:
Wählt man in
das kleinstmögliche \(\beta\), so heißt \(1-\beta\) die Power oder Macht des Tests.
Der Test hat also eine besonders große Power, wenn die Wahrscheinlichkeit an der Nullhypothese festzuhalten obwohl die Alternativehypothese gilt, besonders klein ist. Ist die Power groß, so übersieht es der Test selten wenn \(H_1\) zutrifft. Je höher die Power, desto besser erkennt der Test eine falsche Nullhypothese. Eine Power von z.B. \(0.8\) bedeutet, dass der Test in \(80\%\) der Fälle einen Effekt (eine falsche Nullhypothese) erkennt, wenn er existiert.
Bemerkungen zur Power
Die Power \(1 - \beta\) ist in der Praxis nicht leicht zu berechnen.
Die Power hängt stark von der Stichprobengröße \(n\) ab.
Typisches Ziel: \(\beta\) vorgeben, um die Power gezielt zu steuern.
Vorgehen zur Power-Planung#
Festlegen von Testverfahren, \(\alpha\), und Nullhypothese \(H_0\)
Definition eines interessierenden Effekts:
D.h. Auswahl einer Teilmenge \(\tilde{\Theta}_1 \subset \Theta_1\), in der die Alternativhypothese besonders relevant ist.
Beispiel:
\(H_0: \mu = 5\), \(H_1: \mu \ne 5\)
\(\tilde{\Theta}_1 = (-\infty, 4) \cup (6, \infty)\) = besonders deutliche Abweichungen
Vorgeben eines maximal tolerierten Fehlers 2. Art \(\beta\), z. B. \(\beta = 0.2\)
Berechnung der minimal nötigen Stichprobengröße \(n\), sodass
\[ \mathbb{P}_\vartheta(\text{Test verwirft }H_0\text{ nicht}) \leq \beta \quad \text{für alle } \vartheta \in \tilde{\Theta}_1 \]→ Damit wird garantiert, dass der Test mit hoher Wahrscheinlichkeit Effekte erkennt.
Achtung
Für die Power-Planung muss eine Effektstärke angegeben werden. Hierzu gibt es je nach Test und Fragestellung verschiedene Optionen, z.B.
Cohens \(d\)
Cohens \(f^2\)
Hedges \(g\)
Cramers \(\phi\)
Cohens \(\omega\)
…
Zudem benötigt man gutes Expertenwissen was in der vorliegenden Situation eine sinnvolle Effektgröße (im entsprechenden Maß) ist. Es sei daher an dieser Stelle an weiterführende Literatur verwiesen. Für einen Überblick eignet sich Wikipedia.