Testtheorie - Einführung#
Wir beginnen mit einem Beispiel:
Beispiel: Qualitätskontrolle#
Aufgabenstellung#
In einer Presse werden Bauteile umgeformt. Der Verkäufer der Presse verspricht einen Ausschussanteil von maximal 8 %.
Um festzustellen, ob das eingehalten wird, untersucht der Betreiber der Presse eine Stichprobe von \(n\) Bauteilen.
Was könnte passieren? Zum Beispiel:
\(n = 5\), davon \(1\) defekt → \(20\%\) → deutlich über \(8\%\) aber sehr kleines \(n\)
\(n = 50\), davon \(5\) defekt → \(10\%\) → über \(8\%\), doch ist \(n\) „groß genug“?
\(n = 1000\), davon \(81\) defekt → \(8.1\%\) → sehr knapp über \(8\%\) aber \(n\) ist sehr groß
Frage: Ab wann „traut man sich“, sich zu beschweren?
Gesucht: Entscheidungsregel, welche sagt, ob die Stichprobe für eine Beschwerde reicht!
Genauer: Für festes \(n\) (z.B. \(n=50\)) ist eine Grenze \(c\) gesucht, welche sagt, wie viele Ausschussteile in der Stichprobe maximal zu akzeptieren sind.
Verteilung#
Dem Problem liegt die Binomialverteilung zugrunde:
\(n = 50\) … Größe der Stichprobe
\(p\) … wahrer, aber unbekannter Ausschussanteil
\(X\) … Zufallsvariable, Anzahl der Ausschussteile in Stichprobe
Wahrscheinlichkeit genau \(k\) defekte zu ziehen:
\[ \mathbb{P}_p(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]
Wie groß ist die Wahrscheinlichkeit bei gegebenem \(p\) eine gegebene Grenze \(c\) zu überschreiten?
Beachte: Verteilung \(\mathbb{P}_p\) hängt vom wahren und unbekannten \(p\) ab!
Hypothesen#
Für den unbekannten Parameter \(p\) gibt es 2 Möglichkeiten: Entweder er ist kleiener-gleich \(0.08\) (was wir gut finden) oder er ist größer also \(0.08\) (was wir nicht gut finden). Mit dieser Unterscheidung formulieren wir die Hypthesen:
\(\Theta = [0,1]\) ist die Menge aller möglichen Werte für \(p\). Diese zerlegen wir nun in zwei Teilmengen:
\(\Theta_0 = [0, 0.08]\) … akzeptable Ausschussanteile → Nullhypothese: \(p\in \Theta_0\) bzw. \(p \leq 0.08\)
\(\Theta_1 = (0.08, 1]\) … problematische Ausschussanteile → Alternativhypothese: \(p\in \Theta_1\) bzw. \(p > 0.08\)
Peinlicher Irrtum#
Die Entscheidung die wir treffen (werden) hängt von der Stichprobe ab, sie kann richtig oder falsch sein. Hier wäre es uns besonders unangenehm, wenn wir uns beschweren, obwohl es keinen Grund zur Beschwerde gibt, wenn wir also denken, dass \(p>0.08\) obwohl eigentlich \(p\leq 0.08\) gilt. Dies nennen wir peinlichen Irrtum. Wir wollen unsere Entscheidung so treffen, dass ein solcher Irrtum nur mit einer (vorgegebenen) sehr kleinen Wahrscheinlichkeit stattfindet.
Nächster Schritt: Wahl eines Irrtumsniveaus \(\alpha\) (auch Signifikanzniveau genannt)
die Wahrscheinlichkeit für „peinlichen Irrtum“ (also Ablehnung der Nullhypothese, obwohl sie gilt) soll maximal \(\alpha\) betragen
ist vor der Durchführung des Tests zu wählen
in Formeln ausgedrückt: Falls \(p\leq 0.08\), also \(p\in \Theta_0\), soll
\[\mathbb P_p(\text{"$H_0$ ablehnen"})\leq \alpha\]gelten.
Grenze \(c\) bestimmen#
Da wir \(H_0\) genau dann ablehen wollen, wenn wir mehr als \(c\) fehlerhafte Teile finden, liefert uns dies eine Bestimmunggleichung für \(c\):
Suche kleinstmögliches \(c\), so dass:
Die Wahrscheinlichkeit, dass wir die Nullhypothese fälschlicherweise verwerfen, soll höchstens \(\alpha\) sein.
Nachdem \(c\) berechnet wurde ist die Argumentation wie folgt: Wenn die Nullhypothese gilt, ist es sehr unwahrscheinlich, dass mehr als \(c\) Teile Fehlhaft sind, daher:
werden mehr als \(c\) fehlerhafte Teile in der Stichprobe gefunden → \(H_0\) wird verworfen, Qualität bemängeln
werden maximal \(c\) fehlerhafte Teil in der Stichprobe gefunden → \(H_0\) wird nicht verworfen, Qualität nicht bemängeln
Beispiel
Unter 20 Bauteilen sind 3 defekt. Sollte man die Qualität bemängeln (wenn der Verkäufer der Presse, wie oben beschrieben einen Ausschussanteil von maximal \(8\%\) angibt)? Zu rechnen ist mit dem Irrtumsniveau \(0.05\).
Lösung:
Es gilt \(\frac 3{20}=15\%\). Die 3 ist in diesem Beispiel die sogenannte Testgröße. Wir wollen nun \(c\) bestimmen und mit der Testgröße 3 vergleichen um zu entscheiden, ob wir uns beschweren sollten.
Wir bestimmen die Grenze \(c\), indem wir für \(p=0.08\) die Wahrscheinlichkeit \(\mathbb P_p(X>c)\) berechnen:
\(c\) |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
… |
---|---|---|---|---|---|---|---|---|
\(\mathbb P_p(X>c)\) |
0.81131 |
0.48314 |
0.21205 |
0.07062 |
0.01834 |
0.0038 |
0.00064 |
… |
R-Befehl:
1-pbinom(0:20,size = 20,prob = 0.08)
Die gesuchte Grenze ist \(c=4\), da dies die kleinste Zahl ist für welche \(\mathbb P_p(X>c)\leq 0.05\) gilt.
Wir beschweren uns nicht, da die die Testgröße \(3\) kleiner-gleich \(c=4\) ist. Erst ab mindenstens 5 defekten Teilen unter 20 würden wir die Qualität bemängeln (falls \(\alpha=0.05\) gewählt ist).
p-Wert#
In einer leicht veränderten Vorgehensweise berechnet man nicht die Grenze für das Ablehnen und prüft dann ob Sie mit der vorliegenden Stichprobe eingehalten (oder übertroffen) wurde, sondern man bewertet nur die vorliegende Stichprobe. Genauer gesagt, prüft man, falls die Nullhypothese gilt, wie wahrscheinlich es ist, dass sich eine Stichprobe (bzw. eine Testgröße) ergibt, die mindestens so extrem ist wie die vorliegende. Diese Wahrscheinlichkeit nennt man den p-Wert. Ist dieser p-Wert kleiner als das vorgegebene \(\alpha\), so lehnen wir die Nullhypothese ab, sonst nicht. Schauen wir uns das im Zahlenbeispiel an.
Zusammenhang: \(p\)-Wert, \(\alpha\), Testgröße, kritischer Bereich
Sind \(p\)-Wert, Signifikanzniveau \(\alpha\), konkrete Testgröße \(t\) und kritischer Bereich \(K\) berechnet, so gilt:
\(p\)-Wert \(< \alpha\qquad \Leftrightarrow \qquad t\in K\)
\(p\)-Wert \(\geq \alpha\qquad \Leftrightarrow \qquad t\notin K\)
Beispiel (Fortsetzung)
Unter 20 Bauteilen sind 3 defekt. Sollte man die Qualität bemängeln (wenn der Verkäufer der Presse, wie oben beschrieben einen Ausschussanteil von maximal \(8\%\) angibt)? Zu rechnen ist mit dem Irrtumsniveau \(0.05\).
Lösung:
Es sind genau \(3\) defekt (dies ist die Testgröße). Für \(p=0.08\) ist die Wahrscheinlichkeit, dass 3 oder mehr defekt sind gleich
Dies ist der p-Wert. Da \(0.21205\geq \alpha=0.05\), lehnen wir die Nullhypothese nicht ab. Wir beschweren uns nicht.
R-Befehl:
1-pbinom(2,size = 20,prob = 0.08)
Was ist ein Test?#
Fazit
ein statistischer Tests ist eine Entscheidungsregel, die anhand einer Stichprobe zum „Ablehen“ oder „nicht Ablehnen“ einer gegebenen Hypothese (=Nullhypothese) führt;
damit man der Regel vertrauen kann, fordert man, dass die Wahrscheinlichkeit für einen peinlichen Irrtum unter einer vorgegebenen Schranke \(\alpha\) liegt;
beim Bewerten der Daten stellt man sich vor, die Nullhypothese gilt und fragt sich „Wie gut passt die Stichprobe zur Nullhypothese?“:
Schlechte Passung: Nullhypothese wird verworfen
Gute Passung: Nullhypothese wird nicht verworfen
Wie wählt man Nullhypothese und Alternativhypothese?#
Nullhypothese: beschreibt den Normalfall.
Alternativhypothse: beschreibt die Abweichung vom Normalfall; ist das was man mit dem Test gern zeigen möchte, wenn es denn vorliegt
Achtung:
Ein Test kann die Nullhypothese verwerfen und uns von der Alternativhypothese überzeugen (wenn die Daten sehr stark gegen die Nullhypothese sprechen).
Ein Test kann nicht die Nullhyothese zeigen! Wird die Nullhypothese nicht verworfen heißt dies nur, dass die Daten nicht genügend stark gegen die Nullhypothese sprechen. Das heißt noch lange nicht, Nullhypothese gelten muss.
siehe dazu auch den Abschnitt zu (Fehl-)Interpretationen
Vorgehensweise#
Das allgemeine Vorgehen halten wir hier fest:
Vorgehen
Gegeben und Gesucht
Übersetzen der Anwendungsaufgabe in Mathematik
Führe sinnvolle Zufallsvariablen ein. Was bedeuten diese? Wie sind sie verteilt? Was weiß man über die Parameter?
Welche Stichproben sind gegeben?
Welcher Test ist zu rechnen?
Wahl von \(\alpha\)
Aufstellen der Hypothesen
Bestimmung einer Testgröße
Einen der beiden Schritte
Bestimmen eines kritischen-Bereichs: falls die Testgröße darin liegt, lehnen wir die Nullhypothese ab oder
Bestimmen des p-Werts: falls diese kleiner als \(\alpha\) ist, lehnen wir die die Nullhypothese ab
Interpretation des Ergebnisses
Wie die Schritte im einzelnen auszuführen sind hängt von vielen Faktoren ab, wie z.B. Art der Stichprobe, konkrete Fragestellung, zugrundeliegende Verteilung des Merkmal. Wir schauen uns das für verschiedene Situationen noch genauer an.