Der Boxplot#
Der Boxplot ist eine einfache und schnelle Methode sich die Verteilung der Werte einer Stichprobe graphisch zu verdeutlichen. Voraussetzng ist, dass die Daten metrisch skaliert sind. Er basiert auf den wichtigen Quantilen:
Er gibt einen Überblick über zentrale Lage, Streuung und mögliche Ausreißer einer Datenmenge.
Wir schauen uns zunächst einen Boxplot an.
set.seed(245) # sorgt dafür dass der "Zufall" immer die gleichen Werte liefert
x <- rnorm(100,mean = 30, sd= 15) # x enthält 100 zufällig ausgewählte Zahlen
boxplot(x) # erstellt den Boxplot
Erklärung#
Der fette Strich in der Mitte zeigt den Median an. Er liegt hier etwa bei \(30\).
Das obere Ende der grauen Box ist auf der Höhe des 0.75-Quantils, das untere auf der Höhe des 0.25-Quantils.
Das Ende der oberene Antenne (engl. whiskers) wird wie folgt bestimmt: Addiere zum 0.75-Quantil das 1.5-fache des IQR. Der größte Stichprobenwert, der kleiner als diese Zahl ist, ist das Ende der Antenne.
Das Ende der unteren Antenne (engl. whiskers) wird wie folgt bestimmt: Addiere zum 0.75-Quantil das 1.5-fache des IQR. Der größte Stichprobenwert, der kleiner als diese Zahl ist, ist das Ende der Antenne.
Jeder Datenpunkt der außerhalb der Whiskers liegt, wird als einzelner Punkt eingetragen. Dies sind Ausreißer.
Die Breite der Box hat keine Relevanz
Sonderfall#
Gibt es keine Wert zwischen \(q_{0.75}\) und \(q_{0.75} + 1.5\cdot IQR\), so gibt es die obere Antenne nicht. Alle Werte oberhalb von \(q_{0.75}\) werden dann als Punkte dargestellt.
Gibt es keine Wert zwischen \(q_{0.25}\) und \(q_{0.25} - 1.5\cdot IQR\), so gibt es die untere Antenne nicht. Alle Werte unterhalb von \(q_{0.25}\) werden dann als Punkte dargestellt.
Vorteile des Boxplots#
Kompakte Darstellung: Zeigt schnell wichtige Verteilungsmerkmale einer Datenmenge.
Robust gegenüber Ausreißern: Der Median und der IQR sind nicht von extremen Werten beeinflusst.
Vergleichbarkeit: Mehrere Boxplots können nebeneinander gezeichnet werden, um Gruppen zu vergleichen.
Erkennt Streuung und Symmetrie: gibt schnell einen Anhaltspunkt, ob Daten symmetrisch oder schief verteilt sind.
Nachteile des Boxplots#
Keine detaillierten Informationen zur Verteilung: Boxplots zeigen keine genaue Form der Verteilung (z. B. ob die Daten bimodal sind). Alle Informationen in den Daten sind auf wenige Kennzahlen reduziert.
Abhängigkeit von IQR: die 1,5×IQR-Regel kann - je nach Verteilung - zu sehr vielen oder zu sehr wenigen Ausreißern führen.
Keine absolute Häufigkeitsangaben: Boxplots geben keinen direkten Hinweis auf die Anzahl der Datenpunkte.
Mehrere Boxplots in einer Grafik#
Man kann Boxplots auch nutzen um die Verteilung von mehreren Datensätzen miteinader zu vergleichen.
Die erste Stichporbe hat eine deutlich geringere Streuung. Zudem scheint die Verteilung sehr symmetrisch zu sein. Die zweite Stichprobe hat eine deutlich größere Streuung und ist rechtsschief.