Testtheorie - Einführung#

Wir beginnen mit einem Beispiel:

Beispiel: Qualitätskontrolle#

Aufgabenstellung#

In einer Presse werden Bauteile umgeformt. Der Verkäufer der Presse verspricht einen Ausschussanteil von maximal 8 %.

Um festzustellen, ob das eingehalten wird, untersucht der Betreiber der Presse eine Stichprobe von \(n\) Bauteilen.

Was könnte passieren? Zum Beispiel:

  • \(n = 5\), davon \(1\) defekt → \(20\%\)deutlich über \(8\%\) aber sehr kleines \(n\)

  • \(n = 50\), davon \(5\) defekt → \(10\%\)über \(8\%\), doch ist \(n\) „groß genug“?

  • \(n = 1000\), davon \(81\) defekt → \(8.1\%\)sehr knapp über \(8\%\) aber \(n\) ist sehr groß

Frage: Ab wann „traut man sich“, sich zu beschweren?

Gesucht: Entscheidungsregel, welche sagt, ob die Stichprobe für eine Beschwerde reicht!

Genauer: Für festes \(n\) (z.B. \(n=50\)) ist eine Grenze \(c\) gesucht, welche sagt, wie viele Ausschussteile in der Stichprobe maximal zu akzeptieren sind.

\[ \text{höchstens } c \text{ Bauteile defekt} \Rightarrow \text{ Qualität akzeptieren} \]
\[ \text{mehr als } c \text{ Bauteile defekt} \Rightarrow \text{ Qualität bemängeln} \]

Verteilung#

Dem Problem liegt die Binomialverteilung zugrunde:

  • \(n = 50\) … Größe der Stichprobe

  • \(p\) … wahrer, aber unbekannter Ausschussanteil

  • \(X\) … Zufallsvariable, Anzahl der Ausschussteile in Stichprobe

    Wahrscheinlichkeit genau \(k\) defekte zu ziehen:

    \[ \mathbb{P}_p(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]

Wie groß ist die Wahrscheinlichkeit bei gegebenem \(p\) eine gegebene Grenze \(c\) zu überschreiten?

\[\mathbb{P}_p(X > c) = \sum_{k=c+1}^n \binom{n}{k} p^k (1-p)^{n-k} \]

Beachte: Verteilung \(\mathbb{P}_p\) hängt vom wahren und unbekannten \(p\) ab!


Hypothesen#

Für den unbekannten Parameter \(p\) gibt es 2 Möglichkeiten: Entweder er ist kleiener-gleich \(0.08\) (was wir gut finden) oder er ist größer also \(0.08\) (was wir nicht gut finden). Mit dieser Unterscheidung formulieren wir die Hypthesen:

\(\Theta = [0,1]\) ist die Menge aller möglichen Werte für \(p\). Diese zerlegen wir nun in zwei Teilmengen:

  • \(\Theta_0 = [0, 0.08]\)akzeptable AusschussanteileNullhypothese: \(p\in \Theta_0\) bzw. \(p \leq 0.08\)

  • \(\Theta_1 = (0.08, 1]\)problematische AusschussanteileAlternativhypothese: \(p\in \Theta_1\) bzw. \(p > 0.08\)


Peinlicher Irrtum#

Die Entscheidung die wir treffen (werden) hängt von der Stichprobe ab, sie kann richtig oder falsch sein. Hier wäre es uns besonders unangenehm, wenn wir uns beschweren, obwohl es keinen Grund zur Beschwerde gibt, wenn wir also denken, dass \(p>0.08\) obwohl eigentlich \(p\leq 0.08\) gilt. Dies nennen wir peinlichen Irrtum. Wir wollen unsere Entscheidung so treffen, dass ein solcher Irrtum nur mit einer (vorgegebenen) sehr kleinen Wahrscheinlichkeit stattfindet.

Nächster Schritt: Wahl eines Irrtumsniveaus \(\alpha\) (auch Signifikanzniveau genannt)

  • die Wahrscheinlichkeit für „peinlichen Irrtum“ (also Ablehnung der Nullhypothese, obwohl sie gilt) soll maximal \(\alpha\) betragen

  • ist vor der Durchführung des Tests zu wählen

  • in Formeln ausgedrückt: Falls \(p\leq 0.08\), also \(p\in \Theta_0\), soll

    \[\mathbb P_p(\text{"$H_0$ ablehnen"})\leq \alpha\]

    gelten.


Grenze \(c\) bestimmen#

Da wir \(H_0\) genau dann ablehen wollen, wenn wir mehr als \(c\) fehlerhafte Teile finden, liefert uns dies eine Bestimmunggleichung für \(c\):

Suche kleinstmögliches \(c\), so dass:

\[ \sum_{k=c+1}^n \binom{n}{k} p^k (1-p)^{n-k} = \mathbb{P}_p(X > c) \leq \alpha \quad \text{für alle } p \in [0, 0.08] \]

Die Wahrscheinlichkeit, dass wir die Nullhypothese fälschlicherweise verwerfen, soll höchstens \(\alpha\) sein.

Nachdem \(c\) berechnet wurde ist die Argumentation wie folgt: Wenn die Nullhypothese gilt, ist es sehr unwahrscheinlich, dass mehr als \(c\) Teile Fehlhaft sind, daher:

  • werden mehr als \(c\) fehlerhafte Teile in der Stichprobe gefunden → \(H_0\) wird verworfen, Qualität bemängeln

  • werden maximal \(c\) fehlerhafte Teil in der Stichprobe gefunden → \(H_0\) wird nicht verworfen, Qualität nicht bemängeln

Beispiel

Unter 20 Bauteilen sind 3 defekt. Sollte man die Qualität bemängeln (wenn der Verkäufer der Presse, wie oben beschrieben einen Ausschussanteil von maximal \(8\%\) angibt)? Zu rechnen ist mit dem Irrtumsniveau \(0.05\).

Lösung:

Es gilt \(\frac 3{20}=15\%\). Die 3 ist in diesem Beispiel die sogenannte Testgröße. Wir wollen nun \(c\) bestimmen und mit der Testgröße 3 vergleichen um zu entscheiden, ob wir uns beschweren sollten.

Wir bestimmen die Grenze \(c\), indem wir für \(p=0.08\) die Wahrscheinlichkeit \(\mathbb P_p(X>c)\) berechnen:

\(c\)

0

1

2

3

4

5

6

\(\mathbb P_p(X>c)\)

0.81131

0.48314

0.21205

0.07062

0.01834

0.0038

0.00064

R-Befehl:

1-pbinom(0:20,size = 20,prob = 0.08)

Die gesuchte Grenze ist \(c=4\), da dies die kleinste Zahl ist für welche \(\mathbb P_p(X>c)\leq 0.05\) gilt.

Wir beschweren uns nicht, da die die Testgröße \(3\) kleiner-gleich \(c=4\) ist. Erst ab mindenstens 5 defekten Teilen unter 20 würden wir die Qualität bemängeln (falls \(\alpha=0.05\) gewählt ist).

p-Wert#

In einer leicht veränderten Vorgehensweise berechnet man nicht die Grenze für das Ablehnen und prüft dann ob Sie mit der vorliegenden Stichprobe eingehalten (oder übertroffen) wurde, sondern man bewertet nur die vorliegende Stichprobe. Genauer gesagt, prüft man, falls die Nullhypothese gilt, wie wahrscheinlich es ist, dass sich eine Stichprobe (bzw. eine Testgröße) ergibt, die mindestens so extrem ist wie die vorliegende. Diese Wahrscheinlichkeit nennt man den p-Wert. Ist dieser p-Wert kleiner als das vorgegebene \(\alpha\), so lehnen wir die Nullhypothese ab, sonst nicht. Schauen wir uns das im Zahlenbeispiel an.

Zusammenhang: \(p\)-Wert, \(\alpha\), Testgröße, kritischer Bereich

Sind \(p\)-Wert, Signifikanzniveau \(\alpha\), konkrete Testgröße \(t\) und kritischer Bereich \(K\) berechnet, so gilt:

  • \(p\)-Wert \(< \alpha\qquad \Leftrightarrow \qquad t\in K\)

  • \(p\)-Wert \(\geq \alpha\qquad \Leftrightarrow \qquad t\notin K\)

Beispiel (Fortsetzung)

Unter 20 Bauteilen sind 3 defekt. Sollte man die Qualität bemängeln (wenn der Verkäufer der Presse, wie oben beschrieben einen Ausschussanteil von maximal \(8\%\) angibt)? Zu rechnen ist mit dem Irrtumsniveau \(0.05\).

Lösung:

Es sind genau \(3\) defekt (dies ist die Testgröße). Für \(p=0.08\) ist die Wahrscheinlichkeit, dass 3 oder mehr defekt sind gleich

\[ \mathbb P_p(X>2) = 0.21205 \]

Dies ist der p-Wert. Da \(0.21205\geq \alpha=0.05\), lehnen wir die Nullhypothese nicht ab. Wir beschweren uns nicht.

R-Befehl:

1-pbinom(2,size = 20,prob = 0.08)

Was ist ein Test?#

Fazit

  • ein statistischer Tests ist eine Entscheidungsregel, die anhand einer Stichprobe zum „Ablehen“ oder „nicht Ablehnen“ einer gegebenen Hypothese (=Nullhypothese) führt;

  • damit man der Regel vertrauen kann, fordert man, dass die Wahrscheinlichkeit für einen peinlichen Irrtum unter einer vorgegebenen Schranke \(\alpha\) liegt;

  • beim Bewerten der Daten stellt man sich vor, die Nullhypothese gilt und fragt sich „Wie gut passt die Stichprobe zur Nullhypothese?“:

    • Schlechte Passung: Nullhypothese wird verworfen

    • Gute Passung: Nullhypothese wird nicht verworfen

Wie wählt man Nullhypothese und Alternativhypothese?#

  • Nullhypothese: beschreibt den Normalfall.

  • Alternativhypothse: beschreibt die Abweichung vom Normalfall; ist das was man mit dem Test gern zeigen möchte, wenn es denn vorliegt

Achtung:

  • Ein Test kann die Nullhypothese verwerfen und uns von der Alternativhypothese überzeugen (wenn die Daten sehr stark gegen die Nullhypothese sprechen).

  • Ein Test kann nicht die Nullhyothese zeigen! Wird die Nullhypothese nicht verworfen heißt dies nur, dass die Daten nicht genügend stark gegen die Nullhypothese sprechen. Das heißt noch lange nicht, Nullhypothese gelten muss.

siehe dazu auch den Abschnitt zu (Fehl-)Interpretationen

Vorgehensweise#

Das allgemeine Vorgehen halten wir hier fest:

Vorgehen

  1. Gegeben und Gesucht

    • Übersetzen der Anwendungsaufgabe in Mathematik

    • Führe sinnvolle Zufallsvariablen ein. Was bedeuten diese? Wie sind sie verteilt? Was weiß man über die Parameter?

    • Welche Stichproben sind gegeben?

    • Welcher Test ist zu rechnen?

  2. Wahl von \(\alpha\)

  3. Aufstellen der Hypothesen

  4. Bestimmung einer Testgröße

  5. Einen der beiden Schritte

    • Bestimmen eines kritischen-Bereichs: falls die Testgröße darin liegt, lehnen wir die Nullhypothese ab oder

    • Bestimmen des p-Werts: falls diese kleiner als \(\alpha\) ist, lehnen wir die die Nullhypothese ab

  6. Interpretation des Ergebnisses

Wie die Schritte im einzelnen auszuführen sind hängt von vielen Faktoren ab, wie z.B. Art der Stichprobe, konkrete Fragestellung, zugrundeliegende Verteilung des Merkmal. Wir schauen uns das für verschiedene Situationen noch genauer an.