Übung 6: Multivariate Deskripitive Statistik#

1. Maßzahlen, Korrelationen und Kovarianz#

Wir betrachten die R-internen Datensatz airquality.

  1. Verschaffen Sie sich einen Überblick über den Datensatz unter Verwendung der Funktionen dim(), head() und summary().

  2. Plotten Sie eine Streudiagramm der 1. und 4. Spalte.

  3. Erstellen Sie die Kovarianzmatrix der ersten 4 Spalten. Was stellen Sie fest?

  4. Reduzieren Sie den Datensatz für die folgenden Aufgaben auf nur diejenigen Zeilen, in denen kein NA steht. Gehen Sie dazu zum Beispiel wie folgt vor:

    • Wenden Sie is.na() auf den gesamten Datensatz an um einen Tabelle zu erhalten, die an allen NA-Stellen von airquality ein TRUE hat.

    • Nutzen Sie rowSums() um über die Zeilen dieser neuen Tabelle zu summieren. Dabei wir TRUE wie 1 gewertet und FALSE wie 0. Überalle wo eine Zahl größer Null entsteht gab es mindestens ein NA.

    • Erstellen Sie nun mit ...==0 einen Vektor, der prüft ob die Zeilensumme gleich Null ist. Nutzen Sie dies als Filter für die Zeilen. Nennen Sie den gefilterten Datensatz air. Wieviele Zeilen hat die neue Tabelle? (Lösung: 111)

  5. Erstellen Sie nun die Kovarianzmatrix und die Korrelationsmatrix. Lesen Sie die Kovarianz und die Korrelation zwischen Ozone und Temp ab. (Lösung: 221.520721, 0.6985414)

  6. Stellen Sie die Korrelationsmatrix als Heatmap dar.

  7. Nutzen Sie die Funktion apply() um die Schiefe der ersten 4 Spalten auszurechnen (Lösung für Spalte 1: 1.2481)

# Platz zum Rechnen

2. Streudiagramme#

Betrachten Sie hier den Datensatz air.

  1. Erstellen Sie ein Streudiagramm der ersten und zweiten Spalte. Passen Sie den Title und die Achsenbezeichnungen an. Ändern Sie die Form und die Farbe der Punkte (pch und col).

  2. Nutzen Sie den Befehl pairs() um sich alle paarweisen Streudiagramme der ersten 4 Spalten anzeigen zu lassen.

  3. Stellen Sie in einem 3D-Streudiagramm die Werte von Ozone, Wind und Temp dar. Färben Sie die Punkte entsprechen der Spalte Solar.R

# Platz zum Rechnen

3. Lineare Regression#

Betrachten Sie hier den Datensatz air.

  1. Erstellen Sie eine Streudiagramm für Ozon in Abhängigkeit der Temperatur (d.h. Temperaturwerte stehen auf der x-Achse).

  2. Berechnen Sie die Regressionsgerade \(y=mx+n\) für Ozon in Abhängigkeit der Temperatur. (Lösung: \(n=-147.646\) , \(m=2.439\))

  3. Fügen Sie die Regressionsgerade in die Grafik des Streudiagramms ein.

  4. Führen Sie ein paar optische Anpassungen durch:

    • Passen Sie den Titel an.

    • Ändern Sie Form und Farbe der Datenpunkte

    • Ändern Sie die Frabe der Regressiongeaden.

  5. Sagen Sie mit der Regressionsgerade und der Funktion predict() den Ozonwert für einen Temperaturwert von 95 vorraus. (Lösung: \(84.06937\))

# Platz zum Rechnen

4. Nominal und Ordinale Daten#

Betachten Sie den Datensatz sleep_health_lifestyle.txt.

  1. Veranschaulichen Sie sich den Zusammenhang zwischen

    • Alter und BMI-Kategorie

    • Täglichen Schritten und BMI-Kategorie

    • Schlafdauer und BMI-Kategorie jeweils in Gruppierten Boxplots. Diskutieren Sie die Grafiken mit Ihrem Nachbarn.

  2. Berechnen Sie jeweils den Korrelationskoeffizient nach Spearman für alle möglichen Paarungen aus den Spalten „Quality.of.Sleep“, „Physical.Activity.Level“, „Stress.Level“ und „BMI.Category“. Erstellen Sie die entsprechende Korrelationsmatrix. Zwischen welchen der Spalten besteht der stärkste Zusammenhang laut diese Größe? (Antwort: „Stress.Level“ und „Quality.of.Sleep“ mit -0.8987520)

  3. Interpetieren Sie die Werte und insbesondere deren Vorzeichen.

# Platz zum Rechnen

5. Parallele-Koordinaten-Plot#

Betachten Sie den Datensatz sleep_health_lifestyle.txt.

Stellen Sie die Spalten „Age“, „Sleep.Duration“, „Stress.Level“, „Heart.Rate“, „Daily.Steps“ in einem Parallele-Koordinaten-Plot dar. Färben Sie entsprechend der BMI-Kategrie.

Spielen Sie ein bisschen an der Eingabe herum: Ändern Sie die Reihenfogle der Spalten. Lassen Sie Achsen weg und/oder fügen Sie welche hinzu. Färben Sie nach einer anderen Spalte.

# Platz zum Rechnen