Übung 6: Multivariate Deskripitive Statistik#
1. Maßzahlen, Korrelationen und Kovarianz#
Wir betrachten die R-internen Datensatz airquality
.
Verschaffen Sie sich einen Überblick über den Datensatz unter Verwendung der Funktionen
dim()
,head()
undsummary()
.Plotten Sie eine Streudiagramm der 1. und 4. Spalte.
Erstellen Sie die Kovarianzmatrix der ersten 4 Spalten. Was stellen Sie fest?
Reduzieren Sie den Datensatz für die folgenden Aufgaben auf nur diejenigen Zeilen, in denen kein NA steht. Gehen Sie dazu zum Beispiel wie folgt vor:
Wenden Sie
is.na()
auf den gesamten Datensatz an um einen Tabelle zu erhalten, die an allen NA-Stellen vonairquality
ein TRUE hat.Nutzen Sie
rowSums()
um über die Zeilen dieser neuen Tabelle zu summieren. Dabei wir TRUE wie 1 gewertet und FALSE wie 0. Überalle wo eine Zahl größer Null entsteht gab es mindestens ein NA.Erstellen Sie nun mit
...==0
einen Vektor, der prüft ob die Zeilensumme gleich Null ist. Nutzen Sie dies als Filter für die Zeilen. Nennen Sie den gefilterten Datensatzair
. Wieviele Zeilen hat die neue Tabelle? (Lösung: 111)
Erstellen Sie nun die Kovarianzmatrix und die Korrelationsmatrix. Lesen Sie die Kovarianz und die Korrelation zwischen
Ozone
undTemp
ab. (Lösung: 221.520721, 0.6985414)Stellen Sie die Korrelationsmatrix als Heatmap dar.
Nutzen Sie die Funktion
apply()
um die Schiefe der ersten 4 Spalten auszurechnen (Lösung für Spalte 1: 1.2481)
# Platz zum Rechnen
2. Streudiagramme#
Betrachten Sie hier den Datensatz air
.
Erstellen Sie ein Streudiagramm der ersten und zweiten Spalte. Passen Sie den Title und die Achsenbezeichnungen an. Ändern Sie die Form und die Farbe der Punkte (
pch
undcol
).Nutzen Sie den Befehl
pairs()
um sich alle paarweisen Streudiagramme der ersten 4 Spalten anzeigen zu lassen.Stellen Sie in einem 3D-Streudiagramm die Werte von
Ozone
,Wind
undTemp
dar. Färben Sie die Punkte entsprechen der SpalteSolar.R
# Platz zum Rechnen
3. Lineare Regression#
Betrachten Sie hier den Datensatz air
.
Erstellen Sie eine Streudiagramm für Ozon in Abhängigkeit der Temperatur (d.h. Temperaturwerte stehen auf der x-Achse).
Berechnen Sie die Regressionsgerade \(y=mx+n\) für Ozon in Abhängigkeit der Temperatur. (Lösung: \(n=-147.646\) , \(m=2.439\))
Fügen Sie die Regressionsgerade in die Grafik des Streudiagramms ein.
Führen Sie ein paar optische Anpassungen durch:
Passen Sie den Titel an.
Ändern Sie Form und Farbe der Datenpunkte
Ändern Sie die Frabe der Regressiongeaden.
Sagen Sie mit der Regressionsgerade und der Funktion
predict()
den Ozonwert für einen Temperaturwert von 95 vorraus. (Lösung: \(84.06937\))
# Platz zum Rechnen
4. Nominal und Ordinale Daten#
Betachten Sie den Datensatz sleep_health_lifestyle.txt
.
Veranschaulichen Sie sich den Zusammenhang zwischen
Alter und BMI-Kategorie
Täglichen Schritten und BMI-Kategorie
Schlafdauer und BMI-Kategorie jeweils in Gruppierten Boxplots. Diskutieren Sie die Grafiken mit Ihrem Nachbarn.
Berechnen Sie jeweils den Korrelationskoeffizient nach Spearman für alle möglichen Paarungen aus den Spalten „Quality.of.Sleep“, „Physical.Activity.Level“, „Stress.Level“ und „BMI.Category“. Erstellen Sie die entsprechende Korrelationsmatrix. Zwischen welchen der Spalten besteht der stärkste Zusammenhang laut diese Größe? (Antwort: „Stress.Level“ und „Quality.of.Sleep“ mit -0.8987520)
Interpetieren Sie die Werte und insbesondere deren Vorzeichen.
# Platz zum Rechnen
5. Parallele-Koordinaten-Plot#
Betachten Sie den Datensatz sleep_health_lifestyle.txt
.
Stellen Sie die Spalten „Age“, „Sleep.Duration“, „Stress.Level“, „Heart.Rate“, „Daily.Steps“ in einem Parallele-Koordinaten-Plot dar. Färben Sie entsprechend der BMI-Kategrie.
Spielen Sie ein bisschen an der Eingabe herum: Ändern Sie die Reihenfogle der Spalten. Lassen Sie Achsen weg und/oder fügen Sie welche hinzu. Färben Sie nach einer anderen Spalte.
# Platz zum Rechnen