Übung 15#

Aufgabe: Chi-Quadrat-Anpassungstest mit einem Datensatz aus Ecdat#

Wir betrachten den Datensatz Doctor aus dem Paket Ecdat.
Der Datensatz enthält Querschnittsdaten zu Arztbesuchen in den USA (bei Familien mit mindestens einem Kind) und unter anderem die Variable

  • children – Anzahl der im Haushalt lebenden Kinder

Wir untersuchen, ob die beobachtete Verteilung der Kinderanzahl mit einer vorgegebenen theoretischen Verteilung übereinstimmt.

Es sei \(X\) die Anzahl der Kinder (mit Ausprägungen \(\{0,\;1,\;2,\;\ge 3\}\). Die theoretische Verteilung lautet

Kategorie

\(1\) Kind

\(2\) Kind

\(3\) Kinder

\(\geq 4\) Kinder

\(\mathbb P(X = x)\)

\(0.40\)

\(0.30\)

\(0.20\)

\(0.10\)

Sprechen die vorliegenden Daten gegen diese Verteilung? Führen Sie einen \(\chi^2\)-Anpassungstest zum Signifikanznievau 0.05 durch. Geben Sie den p-Wert an, leiten Sie die Testentscheidung ab und interpretieren Sie Ihr Ergebnis.

Datenaufbereitung: Laden Sie den Datensatz und fassen Sie die Merkmalsausprägungen der Variable children wie folgt zu Kategorien zusammen:

Kategorie

\(1\) Kind

\(2\) Kinder

\(3\) Kinder

\(\geq 4\) Kinder

abs. Häufigkeit im Datensatz

rel. Häufigkeit im Datensatz


Hier ein Aufgabe zum Arbeiten mit R.

Aufgabe#

Nutze den Befehl

read.table("https://iversion.informatik.htw-dresden.de/schwarzenberger/statbook/-/raw/main/daten/air_pollution_china.csv?ref_type=heads&inline=false",header=TRUE,sep=",",dec=".")

um den Datensatz air_pollution_china einzulesen. Verwende im Folgenden jeweils das Signifikanzniveau \(0.05\)

  1. Prüfe mit dem Korrelationstest, ob eine Korrelation zwischen den ersten beiden Spalten besteht.

  2. Vergleiche die O3-Werte im Sommer und im Winter. Bereche dazu jeweils Mittelwert und Standardabweichung. Kann man mit einem passenden Test widerlegen, dass die O3-Werte im Mittel gleich sind?

  3. Prüfe mit einem Kolmogorov-Smirnoff-Test, ob die Daten der Spalte O3 einer Normalverteilung entstammen? Normiere die Spalte zunächst indem du von der Spalte den Mittelwert abziehst und dann durch die Standardabweichung teilst. Prüfe dann den resultierenden Vektor auf Standardnormalverteilung.