Übung 15#

Aufgabe 1: Chi-Quadrat-Anpassungstest mit einem Datensatz aus Ecdat#

Wir betrachten den Datensatz Doctor aus dem Paket Ecdat.
Der Datensatz enthält Querschnittsdaten zu Arztbesuchen in den USA (bei Familien mit mindestens einem Kind) und unter anderem die Variable

  • children – Anzahl der im Haushalt lebenden Kinder

Wir untersuchen, ob die beobachtete Verteilung der Kinderanzahl mit einer vorgegebenen theoretischen Verteilung übereinstimmt.

Es sei \(X\) die Anzahl der Kinder (mit Ausprägungen \(\{0,\;1,\;2,\;\ge 3\}\). Die theoretische Verteilung lautet

Kategorie

\(1\) Kind

\(2\) Kind

\(3\) Kinder

\(\geq 4\) Kinder

\(\mathbb P(X = x)\)

\(0.40\)

\(0.30\)

\(0.20\)

\(0.10\)

Sprechen die vorliegenden Daten gegen diese Verteilung? Führen Sie einen \(\chi^2\)-Anpassungstest zum Signifikanznievau 0.05 durch.

  • geben Sie die Testgröße an

  • geben Sie den p-Wert an

  • leiten Sie die Testentscheidung ab

  • interpretieren Sie Ihr Ergebnis

Datenaufbereitung: Laden Sie den Datensatz und fassen Sie die Merkmalsausprägungen der Variable children wie folgt zu Kategorien zusammen:

Kategorie

\(1\) Kind

\(2\) Kinder

\(3\) Kinder

\(\geq 4\) Kinder

abs. Häufigkeit im Datensatz

rel. Häufigkeit im Datensatz


Aufgabe 2: Kolmogorv-Smirnov-Test#

Prüfen Sie die Daten auf Exponentialverteilung:

2.42, 1.73, 2.31, 0.43, 3.11, 1.71, 1.07, 2.49, 0.18, 1.15, 0.11, 6.32, 1.89, 1.14, 0.19, 2.92, 0.42, 0.13, 0.28, 0.46, 0.98, 4.67, 0.75, 0.03, 1.55

Lässt sich mit dem Kolmogorov-Smirnov-Test zum Signifikanzniveau 0.05 zeigen, dass diese Daten nicht aus einer Exponentialverteilung mit Parameter \(\lambda=0.5\) stammen?

  • Bestimmen Sie die Testgröße.

  • Bestimmen Sie den p-Wert.

  • Welche Entscheidung leiten Sie ab?

  • Interpretieren Sie Ihr Ergebnis

Aufgabe 3: Test auf (Un-)abhängigkeit#

Wir betrachten den Datensatz HairEyeColor welcher standardmäßig in R verfügbar ist.

Prüfen Sie je zum Signifikanzniveau \(0.01\) ob man zeigen kann, dass

  • Haarfarbe und Geschlecht voneinander abhängig sind?

  • Haarfarbe und Augenfarbe voneinander abhängig sind?

Geben Sie dazu jeweils den p-Wert, die Entescheidung in die Interpretation an.

Hinweis: Der folgende Befehl erstellt aus der 3-dimensionalen Tabelle eine 2-dimensionale Version, welche nur die Häufigkeiten für das erste (Haarfarbe) und dritte (Geschlecht) Merkmal miteinander vergleicht:

margin.table(HairEyeColor, margin = c(1, 3))

Aufgabe 4: Luftverschmutzung in China#

Nutzen Sie Befehl

data <- read.table("https://iversion.informatik.htw-dresden.de/schwarzenberger/statbook/-/raw/main/daten/air_pollution_china.csv?ref_type=heads&inline=false",header=TRUE,sep=",",dec=".")

um den Datensatz air_pollution_china einzulesen. Verwenden Sie im Folgenden jeweils das Signifikanzniveau \(0.05\) und geben Sie jeweils den p-Wert, die Test-Entscheidung und die Interpretation an.

  1. Prüfe mit dem Korrelationstest, ob eine Korrelation zwischen den ersten beiden Spalten besteht.

  2. Vergleiche die O3-Werte im Sommer und im Winter. Bereche dazu jeweils Mittelwert und Standardabweichung. Kann man mit einem passenden Test widerlegen, dass die O3-Werte im Mittel gleich sind? (gehen Sie dabei von Normalverteilung aus, davon, dass sonst nichts über die Varianzen bekannt ist)