Übung 14: Parameter-Tests#
Gehen Sie bei allen Tests in der aus der Vorlesung bekannten Vorgehensweise vor.
Aufgabe 1: Fortlaufende Produktionskontrolle#
In einem chemischen Produktionsprozess wird der pH-Wert einer Lösung regelmäßig überwacht, um eine gleichbleibende Produktqualität sicherzustellen. Zu diesem Zweck werden in festen Zeitabständen kleine Stichproben entnommen und der pH-Wert gemessen.
Stichprobe: 7.01, 7.05, 6.98, 7.02, 7.04
Stichprobe: 7.12, 7.08, 7.15, 7.10, 7.11
Stichprobe: 6.90, 6.88, 6.92, 6.95, 6.89
Der Sollwert für den pH-Wert beträgt \(\mu_0 = 7.0\). Aus früheren Messreihen ist bekannt, dass die Standardabweichung \(\sigma = 0.1\) beträgt. Der pH-Wert kann als normalverteilt angesehen werden.
Bei welcher der drei Stichproben muss in den Produktionsprozess eingegriffen werden, da der Erwartungswert nicht mehr \(\mu_0\) zu sein scheint. Nutzen sie also Signifikanzniveau \(\alpha = 0.05\).
Formulieren Sie geeignete Null- und Alternativhypothesen und führen Sie für jede Stichprobe einen passenden Test durch.
(a) Schreiben Sie die Lösung der Aufgabe in der bekannte Vorgehensweise für statistische Tests (Schritte 0 bis 5) unter Verwendung der Testgröße und des kritischen Bereichs auf.
(b) Verifizieren Sie Ihre Ergebnisse, indem Sie auch jeweils den p-Wert mit R ermitteln.
# Platz zum Arbeiten
Aufgabe 2: Schwankungen in der Abfüllmenge#
In der Qualitätskontrolle eines industriellen Abfüllprozesses wird das Gewicht von abgefüllten Mehlpackungen regelmäßig überwacht. Während der Mittelwert korrekt eingestellt sein kann, deutet eine zu große Streuung auf Probleme im Abfüllmechanismus hin (z. B. ungleichmäßige Dosierung).
Wir laden den Datensatz filling_data indem wir den Befehl
filling_data <- read.table("https://www2.htw-dresden.de/~schwarzenberger/statbook/filling_data.txt",header = TRUE, sep = ",",dec = ".")
ausführen. Dort steht in der Spalte weight das gemessene Abfüllgewicht.
Aus der technischen Spezifikation ist bekannt, dass die Standardabweichung des Abfüllprozesses höchstens \(\sigma_0 = 6\) Gramm betragen darf. Anderenfalls muss eine Reparatur durchgeführt werden.
Prüfen Sie mit einem passenden Test zum Signifikanzniveau \(0.05\), ob die Standardabweichung mehr als \(6\) Gramm beträgt. Nutzen Sie die bekannte Vorgehensweise für statistische Tests (Schritte 0 bis 5) und interpretieren Sie Ihr Ergebnis.
# Platz zum Arbeiten
Aufgabe 3: Einkommens- und Familienstruktur mit dem Datensatz Mroz (Ecdat)#
Wir betrachten den Datensatz Mroz aus dem Paket Ecdat.
Der Datensatz enthält Querschnittsdaten zu Ehepaaren in den USA (1975) und
umfasst unter anderem Informationen zu Stundenlöhnen, Erwerbstätigkeit,
Wohnort und familiärer Situation.
Für die folgenden Aufgaben sind insbesondere die Variablen relevant:
wagew– Stundenlohn der Ehefrau (in Dollar, Jahr 1975)wageh– Stundenlohn des Ehemanns (in Dollar, Jahr 1975)city– lebt der Haushalt in einer Großstadt?city = yes: jacity = no: nein
child6– Anzahl der Kinder unter 6 Jahren im Haushaltchild618– Anzahl der Kinder zwischen 6 und 18 Jahren im Haushalt
Im ersten Schritt reduziern wir den Datensatz mit
data <- Mroz[Mroz$wagew>0 & Mroz$wageh >0, ]
auf die Zeilen, in welche auch ein beide Ehepartner einen positiven Studenlohn angegeben haben. (Im Datensatz Mroz gibt es viel Zeilen mit Stundenlohn 0, welche für Personen stehen, die keiner Erwerbstätigkeit nachgehen. Diese haben wir nun entfernt)
Aufgabe 3a: Vergleich der Stundenlöhne von Ehemännern und Ehefrauen#
Wir interessieren uns für die Frage, ob Ehemänner im Mittel einen höheren Stundenlohn erzielen als Ehefrauen. Prüfen Sie mit einem geeignetem Test zum Signifikanzniveau \(\alpha = 0{,}05\), ob der durchschnittliche Stundenlohn der Ehemänner größer ist als der der Ehefrauen.
Formulieren Sie eine geeignete Null- und Alternativhypothese.
Gehen Sie von ungleichen Varianzen aus und berechnen Sie den p-Wert mit einem passenden Test.
Interpretieren Sie das Testergebnis inhaltlich.
Aufgabe 3b: Stundenlohn von Frauen nach Wohnort#
Nun betrachten wir ausschließlich die Ehefrauen im Datensatz.
Wir untersuchen, ob sich der durchschnittliche Stundenlohn von Frauen zwischen Großstädten und Nicht-Großstädten unterscheidet.
Teilen Sie die Stichprobe anhand der Variable
cityin zwei Gruppen:Frauen in Großstädten (
city == "yes")Frauen außerhalb von Großstädten (
city == "no")
Formulieren Sie eine geeignete Null- und Alternativhypothese.
Prüfen Sie mit einem zweiseitigen Zwei-Stichproben-t-Test zum Signifikanzniveau \(\alpha = 0{,}05\), ob sich die Erwartungswerte der Stundenlöhne beider Gruppen unterscheiden.
Interpretieren Sie das Testergebnis inhaltlich.
Aufgabe 3c: Kinderlosigkeit von Frauen nach Wohnort#
Wir betrachten erneut ausschließlich die Ehefrauen im Datensatz.
Eine Frau gilt als kinderlos, wenn child6 == 0 und child618 == 0 gilt.
Lässt sich zeigen, dass die Wahrscheinlichkeit kinderlos zu sein bei Frauen in Großstädten höher ist als bei Frauen außerhalb von Großstädten?
Es sei
\(p_{\text{city}}\): Wahrscheinlichkeit, dass eine Frau in einer Großstadt kinderlos ist,
\(p_{\text{non-city}}\): entsprechende Wahrscheinlichkeit für Frauen außerhalb von Großstädten.
Definieren Sie geeignete Zufallsvariablen und formulieren Sie eine Null- und Alternativhypothese.
Führen Sie zum Signifikanzniveau \(\alpha = 0{,}05\) einen passenden Zwei-Stichproben-Test für unbekannte Wahrscheinlichkeiten durch.
Geben Sie den p-Wert an und treffen Sie eine Testentscheidung.
Interpretieren Sie das Ergebnis inhaltlich.