Übung 15#
Aufgabe 1: Chi-Quadrat-Anpassungstest mit einem Datensatz aus Ecdat#
Wir betrachten den Datensatz Doctor aus dem Paket Ecdat.
Der Datensatz enthält Querschnittsdaten zu Arztbesuchen in den USA (bei Familien mit mindestens einem Kind) und unter anderem die Variable
children– Anzahl der im Haushalt lebenden Kinder
Wir untersuchen, ob die beobachtete Verteilung der Kinderanzahl mit einer vorgegebenen theoretischen Verteilung übereinstimmt.
Es sei \(X\) die Anzahl der Kinder (mit Ausprägungen \(\{0,\;1,\;2,\;\ge 3\}\). Die theoretische Verteilung lautet
Kategorie |
\(1\) Kind |
\(2\) Kind |
\(3\) Kinder |
\(\geq 4\) Kinder |
|---|---|---|---|---|
\(\mathbb P(X = x)\) |
\(0.40\) |
\(0.30\) |
\(0.20\) |
\(0.10\) |
Sprechen die vorliegenden Daten gegen diese Verteilung? Führen Sie einen \(\chi^2\)-Anpassungstest zum Signifikanznievau 0.05 durch.
geben Sie die Testgröße an
geben Sie den p-Wert an
leiten Sie die Testentscheidung ab
interpretieren Sie Ihr Ergebnis
Datenaufbereitung: Laden Sie den Datensatz und fassen Sie die Merkmalsausprägungen der Variable
children wie folgt zu Kategorien zusammen:
Kategorie |
\(1\) Kind |
\(2\) Kinder |
\(3\) Kinder |
\(\geq 4\) Kinder |
|---|---|---|---|---|
abs. Häufigkeit im Datensatz |
… |
… |
… |
… |
rel. Häufigkeit im Datensatz |
… |
… |
… |
… |
Aufgabe 2: Kolmogorv-Smirnov-Test#
Prüfen Sie die Daten auf Exponentialverteilung:
2.42, 1.73, 2.31, 0.43, 3.11, 1.71, 1.07, 2.49, 0.18, 1.15, 0.11, 6.32, 1.89, 1.14, 0.19, 2.92, 0.42, 0.13, 0.28, 0.46, 0.98, 4.67, 0.75, 0.03, 1.55
Lässt sich mit dem Kolmogorov-Smirnov-Test zum Signifikanzniveau 0.05 zeigen, dass diese Daten nicht aus einer Exponentialverteilung mit Parameter \(\lambda=0.5\) stammen?
Bestimmen Sie die Testgröße.
Bestimmen Sie den p-Wert.
Welche Entscheidung leiten Sie ab?
Interpretieren Sie Ihr Ergebnis
Aufgabe 3: Test auf (Un-)abhängigkeit#
Wir betrachten den Datensatz HairEyeColor welcher standardmäßig in R verfügbar ist.
Prüfen Sie je zum Signifikanzniveau \(0.01\) ob man zeigen kann, dass
Haarfarbe und Geschlecht voneinander abhängig sind?
Haarfarbe und Augenfarbe voneinander abhängig sind?
Geben Sie dazu jeweils den p-Wert, die Entescheidung in die Interpretation an.
Hinweis: Der folgende Befehl erstellt aus der 3-dimensionalen Tabelle eine 2-dimensionale Version, welche nur die Häufigkeiten für das erste (Haarfarbe) und dritte (Geschlecht) Merkmal miteinander vergleicht:
margin.table(HairEyeColor, margin = c(1, 3))
Aufgabe 4: Luftverschmutzung in China#
Nutzen Sie Befehl
data <- read.table("https://iversion.informatik.htw-dresden.de/schwarzenberger/statbook/-/raw/main/daten/air_pollution_china.csv?ref_type=heads&inline=false",header=TRUE,sep=",",dec=".")
um den Datensatz air_pollution_china einzulesen. Verwenden Sie im Folgenden jeweils das Signifikanzniveau \(0.05\) und geben Sie jeweils den p-Wert, die Test-Entscheidung und die Interpretation an.
Prüfe mit dem Korrelationstest, ob eine Korrelation zwischen den ersten beiden Spalten besteht.
Vergleiche die
O3-Werte im Sommer und im Winter. Bereche dazu jeweils Mittelwert und Standardabweichung. Kann man mit einem passenden Test widerlegen, dass dieO3-Werte im Mittel gleich sind? (gehen Sie dabei von Normalverteilung aus, davon, dass sonst nichts über die Varianzen bekannt ist)