Übung 15#
Aufgabe: Chi-Quadrat-Anpassungstest mit einem Datensatz aus Ecdat#
Wir betrachten den Datensatz Doctor aus dem Paket Ecdat.
Der Datensatz enthält Querschnittsdaten zu Arztbesuchen in den USA (bei Familien mit mindestens einem Kind) und unter anderem die Variable
children– Anzahl der im Haushalt lebenden Kinder
Wir untersuchen, ob die beobachtete Verteilung der Kinderanzahl mit einer vorgegebenen theoretischen Verteilung übereinstimmt.
Es sei \(X\) die Anzahl der Kinder (mit Ausprägungen \(\{0,\;1,\;2,\;\ge 3\}\). Die theoretische Verteilung lautet
Kategorie |
\(1\) Kind |
\(2\) Kind |
\(3\) Kinder |
\(\geq 4\) Kinder |
|---|---|---|---|---|
\(\mathbb P(X = x)\) |
\(0.40\) |
\(0.30\) |
\(0.20\) |
\(0.10\) |
Sprechen die vorliegenden Daten gegen diese Verteilung? Führen Sie einen \(\chi^2\)-Anpassungstest zum Signifikanznievau 0.05 durch. Geben Sie den p-Wert an, leiten Sie die Testentscheidung ab und interpretieren Sie Ihr Ergebnis.
Datenaufbereitung: Laden Sie den Datensatz und fassen Sie die Merkmalsausprägungen der Variable
children wie folgt zu Kategorien zusammen:
Kategorie |
\(1\) Kind |
\(2\) Kinder |
\(3\) Kinder |
\(\geq 4\) Kinder |
|---|---|---|---|---|
abs. Häufigkeit im Datensatz |
… |
… |
… |
… |
rel. Häufigkeit im Datensatz |
… |
… |
… |
… |
Hier ein Aufgabe zum Arbeiten mit R.
Aufgabe#
Nutze den Befehl
read.table("https://iversion.informatik.htw-dresden.de/schwarzenberger/statbook/-/raw/main/daten/air_pollution_china.csv?ref_type=heads&inline=false",header=TRUE,sep=",",dec=".")
um den Datensatz air_pollution_china einzulesen. Verwende im Folgenden jeweils das Signifikanzniveau \(0.05\)
Prüfe mit dem Korrelationstest, ob eine Korrelation zwischen den ersten beiden Spalten besteht.
Vergleiche die
O3-Werte im Sommer und im Winter. Bereche dazu jeweils Mittelwert und Standardabweichung. Kann man mit einem passenden Test widerlegen, dass dieO3-Werte im Mittel gleich sind?Prüfe mit einem Kolmogorov-Smirnoff-Test, ob die Daten der Spalte
O3einer Normalverteilung entstammen? Normiere die Spalte zunächst indem du von der Spalte den Mittelwert abziehst und dann durch die Standardabweichung teilst. Prüfe dann den resultierenden Vektor auf Standardnormalverteilung.