Zwei ordinale Merkmale#

Werden 2 Merkmale abgefragt, so sieht eine Stichprobe der Größe \(n\) folgendermaßen aus:

\[(x_1,y_1),\dots, (x_n,y_n). \]

Der erste Eintrag gehört jeweils zum Merkmal \(X\), der zweite zum Merkmal \(Y\).

Entsprechend der hirarchischen Stuktur der Messbarkeitsskala (nominal, ordinal, metrisch), sind alle Methoden welche für 2 nominale Merkmal funktionieren auch hier anwendbar.

Wir besprechen daher hier nur genauer was noch zusätzlich möglich ist, wenn die Merkmale sogar ordinal messbar sind.

Beispielsweise fragen wir im Rahmen des Marketing die Kunden nach:

  • Zufriedenheit mit Produkt (sehr unzufrieden < unzufrieden < neutral < zufrieden < sehr zufrieden)

  • Häufigkeit der Nutzung eines Produkts (nie < selten < manchmal < oft < täglich)

In diesem Fall sind wie bei nominalen Merkmalen auch Kontingenztafeln anwendbar.

Graphische Methoden#

  • Boxplot: Hat eins der Merkmale wenige Ausprägungen und das andere viele, so bietet die Darstellung als Boxplots an. Gehe dabei so vor wie in Boxplots für ordinale messbare Daten.

  • Balken- und Säulendiagramme: (wie bei nominalen Daten) sind hier auch gestapelte und gruppierte Balken- und Säulendiagramme anwendbar.

  • Mosaik-Plot: (wie bei nominalen Daten) sind hier auch Mosaik-Plots anwendbar.

Maßzahl: Korrelationskoeffizient nach Spearman#

… auch Rangkorreationskoeffizient genannt, er misst den monotonen Zusammenhang zwischen zwei ordinal skalierten Variablen.
Er basiert auf den Rängen der Werte anstelle der absoluten Zahlenwerte und wird berechnet, indem der Pearson-Korrelationskoeffizient auf die Ränge angewendet wird.

Definition#

Der Spearman-Rangkorrelationskoeffizient wird folgendermaßen berechnet:

\[ r_S = \frac{\sum (R(x_i) - \bar{R}(x)) (R(y_i) - \bar{R}(y))}{\sqrt{\sum (R(x_i) - \bar{R}(x))^2} \cdot \sqrt{\sum (R(y_i) - \bar{R}(y))^2}} \]

wobei:

  • \( R(x_i) \) der Rang der Beobachtung \( x_i \) ist.

  • \( R(y_i) \) der Rang der Beobachtung \( y_i \) ist.

  • \( \bar{R}(x) \) und \( \bar{R}(y) \) die Mittelwerte der Vektoren der Ränge \((R(x_1),\dots,R(x_n))\) und \((R(y_1),\dots,R(y_n))\) sind.

Ist \(r_x= (R(x_1),\dots,R(x_n))\) der Vektor der Ränge zum Merkmal \(X\) und \(r_y=(R(y_1),\dots,R(y_n))\) der Vektor der Ränge zum Merkmal \(Y\), so ist Rangkorrelationskoeffizient der Stichprobe gleich dem Korrelationskoeffizient (nach Pearson) der Vektoren \(r_x\) und \(r_y\). Es gilt also

\[r_S = r_{r_x,r_y}\]

Die Berechnung der Ränge \(R(x_i)\) und \(R(y_i)\) zeigen wir am Beispiel.


Bestimmung der Ränge#

Angenommen, wir haben folgende zwei Variablen:

  • X: Ein Maß für die Arbeitszufriedenheit (sehr unzufrieden, unzufrieden, neutral, zufrieden, sehr zufrieden)

  • Y: Ein Maß für die Motivation (sehr gering, gering, mittel, hoch, sehr hoch)

Die Daten sehen wie folgt aus:

Person

Arbeitszufriedenheit (X)

Motivation (Y)

A

unzufrieden

gering

B

zufrieden

hoch

C

sehr unzufrieden

sehr gering

D

neutral

mittel

E

sehr zufrieden

sehr hoch

F

neutral

hoch

G

neutral

gering

H

unzufrieden

mittel

Schritt 1: Ränge zuweisen#

  1. Werte für X sortieren

  2. Plätze von 1 bis n vergeben

  3. Rang = Mittelwert der Plätze mit gleicher Merkmalsausprägung

Ränge für \(X\):

Arbeitszufriedenheit (x)

Platz

Rang R(x)

sehr unzufrieden

1

1.0

unzufrieden

2

2.5

unzufrieden

3

2.5

neutral

4

5.0

neutral

5

5.0

neutral

6

5.0

zufrieden

7

7.0

sehr zufrieden

8

8.0

Ränge für \(Y\):

Motivation (y)

Platz

Rang R(y)

sehr gering

1

1.0

gering

2

2.5

gering

3

2.5

mittel

4

4.5

mittel

5

4.5

hoch

6

6.5

hoch

7

6.5

sehr hoch

8

8.0

Schritt 2: Zurück sortieren#

Bringe die Werte der Ränge wieder in die ursprüngliche Reihenfolge:

Person

Arbeitszufriedenheit (x)

R(x)

Motivation (y)

R(y)

A

unzufrieden

2.5

gering

2.5

B

zufrieden

7.0

hoch

6.5

C

sehr unzufrieden

1.0

sehr gering

1.0

D

neutral

5.0

mittel

4.5

E

sehr zufrieden

8.0

sehr hoch

8.0

F

neutral

5.0

hoch

6.5

G

neutral

5.0

gering

2.5

H

unzufrieden

2.5

mittel

4.5

Schritt 3: Pearson-Korrelation auf die Ränge anwenden#

Setze \(r_x=(2.5, 7.0, 1.0, 5.0, 8.0, 5.0, 5.0, 2.5)\) und \(r_y=(2.5, 6.5, 1.0, 4.5, 8.0, 6.5, 2.5, 4.5)\) und berechne:

\[r_S = r_{r_x,r_y} = \frac{s_{r_x,r_y}}{s_{r_x} \cdot s_{r_y}} \]

Dafür berechnen wir

\[\begin{split}\begin{align*} \bar r_{x} &= \frac{2.5 + 7.0 + \dots + 2.5}{8} = 4.5 \\ \bar r_{y} &= \frac{2.5 + 6.5 + \dots + 4.5}{8} = 4.5 \end{align*} \end{split}\]

und

\[\begin{split} \begin{align*} s_{r_x}&= \left(\frac1{7}\left((2.5-4.5)^2 + (7.0-4.5)^2 + \dots + (2.5-4.5)^2\right)\right)^{0.5} = 2.37547 \\ s_{r_y}&= \left(\frac1{7}\left((2.5-4.5)^2 + (6.5-4.5)^2 + \dots + (4.5-4.5)^2\right)\right)^{0.5} = 2.405351 \end{align*}\end{split}\]

sowie

\[s_{r_x,r_y}= \frac17 \left((2.5-4.5)(2.5-4.5)+(7.0-4.5)(6.5-4.5)+ \dots + (2.5-4.5)(4.5-4.5) \right) = 4.785714\]

Daher gilt

\[r_S = r_{r_x,r_y} = \frac{s_{r_x,r_y}}{s_{r_x} \cdot s_{r_y}}= \frac{4.785714}{2.37547\cdot 2.405351} = 0.8375654\]

Umsetzung in R#

In R kann der Spearman-Koeffizient mit cor() berechnet werden. Zuvor müssen die Ordninalen Daten in numerische Vektoren umgewandelt werden. Anschließend ist cor() mit der Option method="spearman" anzuwenden.

# Ordinale Daten als geordneter Faktor
X <- factor(c("unzufrieden", "zufrieden", "sehr unzufrieden", "neutral", "sehr zufrieden", "neutral", "neutral", "unzufrieden"),
            levels = c("sehr unzufrieden", "unzufrieden", "neutral", "zufrieden", "sehr zufrieden"), ordered = TRUE)

Y <- factor(c("gering", "hoch", "sehr gering", "mittel", "sehr hoch", "hoch", "gering", "mittel"),
            levels = c("sehr gering", "gering", "mittel", "hoch", "sehr hoch"), ordered = TRUE)

# Umwandlung in Ränge
X_ranks <- as.numeric(X)
Y_ranks <- as.numeric(Y)

# Berechnung der Spearman-Korrelation
cor(X_ranks, Y_ranks, method = "spearman")
0.83756543735604