(sec:bivariat_ord_ord)=
# Zwei ordinale Merkmale

Werden 2 Merkmale abgefragt, so sieht eine Stichprobe der Größe $n$ folgendermaßen aus:

$$(x_1,y_1),\dots, (x_n,y_n). $$

Der erste Eintrag gehört jeweils zum Merkmal $X$, der zweite zum Merkmal $Y$. 


Entsprechend der hirarchischen Stuktur der Messbarkeitsskala (nominal, ordinal, metrisch), sind alle Methoden welche für 2 nominale Merkmal funktionieren auch hier anwendbar.

Wir besprechen daher hier nur genauer was noch *zusätzlich* möglich ist, wenn die Merkmale sogar ordinal messbar sind.

Beispielsweise fragen wir im Rahmen des Marketing die Kunden nach:

- Zufriedenheit mit Produkt (sehr unzufrieden < unzufrieden < neutral < zufrieden < sehr zufrieden)
- Häufigkeit der Nutzung eines Produkts (nie < selten < manchmal < oft < täglich)

In diesem Fall sind wie bei nominalen Merkmalen auch **Kontingenztafeln** anwendbar.


## Graphische Methoden

- **Boxplot**: Hat eins der Merkmale wenige Ausprägungen und das andere viele, so bietet die Darstellung als Boxplots an. Gehe dabei so vor wie in [](section:boxplotsordinal).
- **Balken- und Säulendiagramme**: (wie bei nominalen Daten) sind hier auch **gestapelte und gruppierte Balken- und Säulendiagramme** anwendbar.
- **Mosaik-Plot**: (wie bei nominalen Daten) sind hier auch Mosaik-Plots anwendbar.


## Maßzahl: Korrelationskoeffizient nach Spearman

... auch Rangkorreationskoeffizient genannt, er misst den **monotonen Zusammenhang** zwischen zwei ordinal skalierten Variablen.  
Er basiert auf den **Rängen** der Werte anstelle der absoluten Zahlenwerte und wird berechnet, indem der **Pearson-Korrelationskoeffizient** auf die Ränge angewendet wird.


### Definition
Der Spearman-Rangkorrelationskoeffizient wird folgendermaßen berechnet:


$$
r_S = \frac{\sum (R(x_i) - \bar{R}(x)) (R(y_i) - \bar{R}(y))}{\sqrt{\sum (R(x_i) - \bar{R}(x))^2} \cdot \sqrt{\sum (R(y_i) - \bar{R}(y))^2}}
$$
wobei:
- $ R(x_i) $ der Rang der Beobachtung $ x_i $ ist.
- $ R(y_i) $ der Rang der Beobachtung $ y_i $ ist.
- $ \bar{R}(x) $ und $ \bar{R}(y) $ die **Mittelwerte** der Vektoren der Ränge $(R(x_1),\dots,R(x_n))$ und $(R(y_1),\dots,R(y_n))$ sind. 

Ist $r_x= (R(x_1),\dots,R(x_n))$ der Vektor der Ränge zum Merkmal $X$ und $r_y=(R(y_1),\dots,R(y_n))$ der Vektor der Ränge zum Merkmal $Y$, so ist Rangkorrelationskoeffizient der Stichprobe gleich dem Korrelationskoeffizient (nach Pearson) der Vektoren $r_x$ und $r_y$. Es gilt also

$$r_S =  r_{r_x,r_y}$$

Die Berechnung der Ränge $R(x_i)$ und $R(y_i)$ zeigen wir am Beispiel.

---

### Bestimmung der Ränge

Angenommen, wir haben folgende zwei Variablen:

- **X**: Ein Maß für die Arbeitszufriedenheit (`sehr unzufrieden`, `unzufrieden`, `neutral`, `zufrieden`, `sehr zufrieden`)
- **Y**: Ein Maß für die Motivation (`sehr gering`, `gering`, `mittel`, `hoch`, `sehr hoch`)

Die Daten sehen wie folgt aus:

| Person | Arbeitszufriedenheit (X) | Motivation (Y) |
|--------|--------------------------|---------------|
| A      | unzufrieden              | gering        |
| B      | zufrieden                | hoch          |
| C      | sehr unzufrieden         | sehr gering   |
| D      | neutral                  | mittel        |
| E      | sehr zufrieden           | sehr hoch     |
| F      | neutral                  | hoch          |
| G      | neutral                  | gering        |
| H      | unzufrieden              | mittel        |

#### Schritt 1: Ränge zuweisen

1. Werte für X sortieren 
2. Plätze von 1 bis n vergeben
3. Rang = Mittelwert der Plätze mit gleicher Merkmalsausprägung


**Ränge für $X$:**


| Arbeitszufriedenheit (x) | Platz    | Rang R(x)       |
|--------------------------|----------|-----------------|
| sehr unzufrieden         | 1        | 1.0             |
| unzufrieden              | 2        | 2.5             |
| unzufrieden              | 3        | 2.5             |
| neutral                  | 4        | 5.0             |
| neutral                  | 5        | 5.0             |
| neutral                  | 6        | 5.0             |
| zufrieden                | 7        | 7.0             |
| sehr zufrieden           | 8        | 8.0             |


**Ränge für $Y$:**


| Motivation (y) | Platz     | Rang R(y)       |
|----------------|-----------|-----------------|
| sehr gering    | 1         | 1.0             |
| gering         | 2         | 2.5             |
| gering         | 3         | 2.5             |
| mittel         | 4         | 4.5             |
| mittel         | 5         | 4.5             |
| hoch           | 6         | 6.5             |
| hoch           | 7         | 6.5             |
| sehr hoch      | 8         | 8.0             |

#### Schritt 2: Zurück sortieren

Bringe die Werte der Ränge wieder in die ursprüngliche Reihenfolge:

| Person | Arbeitszufriedenheit (x)| R(x)   | Motivation (y) | R(y) |
|--------|-------------------------|--------|----------------|------|
| A      | unzufrieden             | 2.5    | gering         | 2.5  |
| B      | zufrieden               | 7.0    | hoch           | 6.5  |
| C      | sehr unzufrieden        | 1.0    | sehr gering    | 1.0  |
| D      | neutral                 | 5.0    | mittel         | 4.5  |
| E      | sehr zufrieden          | 8.0    | sehr hoch      | 8.0  |
| F      | neutral                 | 5.0    | hoch           | 6.5  |
| G      | neutral                 | 5.0    | gering         | 2.5  |
| H      | unzufrieden             | 2.5    | mittel         | 4.5  |


#### Schritt 3: Pearson-Korrelation auf die Ränge anwenden

Setze $r_x=(2.5, 7.0, 1.0, 5.0, 8.0, 5.0, 5.0, 2.5)$ und $r_y=(2.5, 6.5, 1.0, 4.5, 8.0, 6.5, 2.5, 4.5)$ und
berechne:

$$r_S = r_{r_x,r_y} = \frac{s_{r_x,r_y}}{s_{r_x} \cdot s_{r_y}} $$

Dafür berechnen wir

$$\begin{align*} \bar r_{x} &= \frac{2.5 + 7.0 + \dots + 2.5}{8} = 4.5  \\
\bar r_{y} &= \frac{2.5 + 6.5 + \dots + 4.5}{8} = 4.5 \end{align*}
$$

und

$$ \begin{align*}
s_{r_x}&= \left(\frac1{7}\left((2.5-4.5)^2 + (7.0-4.5)^2 + \dots + (2.5-4.5)^2\right)\right)^{0.5} = 2.37547 \\
s_{r_y}&= \left(\frac1{7}\left((2.5-4.5)^2 + (6.5-4.5)^2 + \dots + (4.5-4.5)^2\right)\right)^{0.5} = 2.405351
\end{align*}$$

sowie

$$s_{r_x,r_y}= \frac17 \left((2.5-4.5)(2.5-4.5)+(7.0-4.5)(6.5-4.5)+ \dots + (2.5-4.5)(4.5-4.5)   \right) = 4.785714$$

Daher gilt

$$r_S = r_{r_x,r_y} = \frac{s_{r_x,r_y}}{s_{r_x} \cdot s_{r_y}}= \frac{4.785714}{2.37547\cdot 2.405351} = 0.8375654$$



---

### Umsetzung in R
In **R** kann der Spearman-Koeffizient mit `cor()` berechnet werden. Zuvor müssen die Ordninalen Daten in numerische Vektoren umgewandelt werden. Anschließend ist `cor()` mit der Option `method="spearman"` anzuwenden.

In [2]:
# Ordinale Daten als geordneter Faktor
X <- factor(c("unzufrieden", "zufrieden", "sehr unzufrieden", "neutral", "sehr zufrieden", "neutral", "neutral", "unzufrieden"),
            levels = c("sehr unzufrieden", "unzufrieden", "neutral", "zufrieden", "sehr zufrieden"), ordered = TRUE)

Y <- factor(c("gering", "hoch", "sehr gering", "mittel", "sehr hoch", "hoch", "gering", "mittel"),
            levels = c("sehr gering", "gering", "mittel", "hoch", "sehr hoch"), ordered = TRUE)

# Umwandlung in Ränge
X_ranks <- as.numeric(X)
Y_ranks <- as.numeric(Y)

# Berechnung der Spearman-Korrelation
cor(X_ranks, Y_ranks, method = "spearman")