Stetig vs. diskret#

Hier soll diskutiert werden bei welchem Typ der Daten welche Maßzahl und Darstellungsmethode sinnvoll ist. Dazu soll uns insbesondere der Unterschied zwischen stetigen und diskreten Merkmalen interessieren. Um dies gut zu veranschaulichen werden wir je Datensatz wählen und anhand dessen die verschiedenen Darstellungen und Maßzahlen diskutieren.

Ein diskretes Merkmal mit 3 Ausprägungen#

Wir nutzen einen der Build-In-Datensätze in R, den Datensatz mtcars und hier speziell die Spalte cyl. Der Datensatz enthält Daten zu 32 Autos. In der Spalte cyl steht die Anzahl der Zylinder des jeweiligen Fahrzeugs.

Wir speichern den Vektor unter \(x\) und berechnen ein paar Maßzahlen

x <- mtcars$cyl

cat("Der komplette Datensatz:")
sort(x)

cat("arthmetisches Mittel: ", mean(x), "\n");

cat("Standardabweichung: ", sd(x), "\n")

cat("Varianz: ", var(x), "\n")

cat("Median: ", median(x), "\n")

cat("Interquartilsabstand: ", quantile(x,0.75)-quantile(x,0.25), "\n\n")
Der komplette Datensatz:
  1. 4
  2. 4
  3. 4
  4. 4
  5. 4
  6. 4
  7. 4
  8. 4
  9. 4
  10. 4
  11. 4
  12. 6
  13. 6
  14. 6
  15. 6
  16. 6
  17. 6
  18. 6
  19. 8
  20. 8
  21. 8
  22. 8
  23. 8
  24. 8
  25. 8
  26. 8
  27. 8
  28. 8
  29. 8
  30. 8
  31. 8
  32. 8
arthmetisches Mittel:  6.1875 
Standardabweichung:  1.785922 
Varianz:  3.189516 
Median:  6 
Interquartilsabstand:  4 

Nun schauen wir uns die Häufigkeitstabelle und noch ein paar Visualisierungen an. Hier bietet sich zum Beispiel ein Säulendiagramm und Kreisdiagramm an. Auch die empirsche Verteilungsfunktion ist sehr aussagekräftig. Alle drei Grafiken visualiesieren die Verteilung gut.

cat("Häufigkeitstabelle:")
table(x)

barplot(table(x))

pie(table(x))

plot(ecdf(x), main="Empirische Verteilungsfunktion")
Häufigkeitstabelle:
x
 4  6  8 
11  7 14 
../../_images/c3986ef3038fbaade06440048b6545afe8102f8f347c40d8d0b114e71231d44f.png ../../_images/ed2cc43aceaa089e0c9c119598bbd18e3985a5c9f12abf08444ed609b983ef96.png ../../_images/3566a8c5ce1360d33e8a8ac1b8c27e5d9d3f8f91ed79069dfb655cfa7d266cef.png

Nun folgen noch ein paar Negativ-Beispiele, also Grafiken, die man zwar erstellen kann, die aber in dieser Situation nicht besonders günstig sind:

  1. Histogramm: Da es nur drei verschiedene Werte gibt werden auch drei Säulen dargestellt. Die Höhen entsprechen den absoluten Häufigkeiten. Allerdings ist die Position der Säulen auf der x-Achse nicht optimal. Bei dieser Darstellung muss man überlegen: Wie kann das gemeint sein, dass die Säule von 7.5 bis 8 auf der x-Achse reicht? Deutlich besser und eindeutiger ist da, das Säulendiagramm von oben.

  2. Boxplot: Im Boxplot sehen wir nur die Box, keine Whiskers (Antennen), siehe Quantile. Das liegt daran, dass es nur 3 Werte gibt. Visualisiert werden also nur die Quantile \(q_{0.25}\), \(q_{0.5}\) und \(q_{0.75}\).

hist(x)

boxplot(x)
../../_images/cda9c6d2bcb67bff4cb523dccad41d5e9f951836fcad32391ff05933b95cf965.png ../../_images/5f82f771c631dcb970adee0039722adef2deeb48861d6921759d8ed5678e4436.png

Ein diskretes Merkmal mit 13 Ausprägungen#

In dem Datensatz discoveries wurde für 100 Jahre aufgelistet wieviele wichtige Entdeckungen pro Jahr gemacht wurden. Wir schauen uns zunächst den gesamten Datensatz, die Häufigkeitstabelle und ein paar Maßzahlen an.

sort(discoveries)

table(discoveries)


cat("arthmetisches Mittel: ", mean(discoveries), "\n\n");

cat("Standardabweichung: ", sd(discoveries), "\n\n")

cat("Varianz: ", var(discoveries), "\n\n")

cat("Median: ", median(discoveries), "\n\n")

cat("Interquartilsabstand: ", quantile(discoveries,0.75)-quantile(discoveries,0.25), "\n\n")

cat("Spannweite: ", max(discoveries)-min(discoveries), "\n\n")

cat("summary() liefert:")
summary(discoveries)
  1. 0
  2. 0
  3. 0
  4. 0
  5. 0
  6. 0
  7. 0
  8. 0
  9. 0
  10. 1
  11. 1
  12. 1
  13. 1
  14. 1
  15. 1
  16. 1
  17. 1
  18. 1
  19. 1
  20. 1
  21. 1
  22. 2
  23. 2
  24. 2
  25. 2
  26. 2
  27. 2
  28. 2
  29. 2
  30. 2
  31. 2
  32. 2
  33. 2
  34. 2
  35. 2
  36. 2
  37. 2
  38. 2
  39. 2
  40. 2
  41. 2
  42. 2
  43. 2
  44. 2
  45. 2
  46. 2
  47. 2
  48. 3
  49. 3
  50. 3
  51. 3
  52. 3
  53. 3
  54. 3
  55. 3
  56. 3
  57. 3
  58. 3
  59. 3
  60. 3
  61. 3
  62. 3
  63. 3
  64. 3
  65. 3
  66. 3
  67. 3
  68. 4
  69. 4
  70. 4
  71. 4
  72. 4
  73. 4
  74. 4
  75. 4
  76. 4
  77. 4
  78. 4
  79. 4
  80. 5
  81. 5
  82. 5
  83. 5
  84. 5
  85. 5
  86. 5
  87. 6
  88. 6
  89. 6
  90. 6
  91. 6
  92. 6
  93. 7
  94. 7
  95. 7
  96. 7
  97. 8
  98. 9
  99. 10
  100. 12
discoveries
 0  1  2  3  4  5  6  7  8  9 10 12 
 9 12 26 20 12  7  6  4  1  1  1  1 
arthmetisches Mittel:  3.1 
Standardabweichung:  2.254065 
Varianz:  5.080808 
Median:  3 
Interquartilsabstand:  2 
Spannweite:  12 
summary() liefert:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.0     2.0     3.0     3.1     4.0    12.0 

Nun folgen ein paar Grafiken: Kreisdiagramm, Säulendiagramm, Histogramm, empirische Verteilungsfunktion und Boxplot

pie(table(discoveries))

barplot(table(discoveries))

hist(discoveries)

plot(ecdf(discoveries))
grid()

boxplot(discoveries)
../../_images/ff1c0a08cc09c0bbb83cb1b9db5acc2348571a559bdc9d18651d3ba0e2a50451.png ../../_images/ce17d05a79bce86f34008151ee26ddee09fc015688eba2f0ba1c4c9147bf46e3.png ../../_images/c123995f35813d2c91abf57c8cc5f8d4d6a256e8b6c507bedad6069373c6d68d.png ../../_images/76fb8945cd9b1feba17c96c3460f3804937737c566efc8755547cb3fab008372.png ../../_images/c16cd84fda0b9c36d28e0a66a90a19e55bfd5493793386f26d06140eccfdd225.png

Alle 5 Grafiken sind aussagekräftig Visualisierungen der Daten. Beim genaueren Hinsehen fällt allerdings auf, dass die „Form“ des Histogramm von der des Säulendiagramms abweicht. Das liegt an der „Entscheidung“ von R die Daten in 6 Klassen zusammenzufassen, nämlich \([0,2]\), \((2,4]\), \((4,6]\), \((6,8]\), \((8,10]\) und \((10,12]\). Diese Wahl führt dazu, dass die Häufigkeiten zu \(0\), \(1\) und \(2\) in der ersten Säule zusammengefasst werden. In allen anderen Säulen werden je nur die Häufigkeiten zu 2 Werten zusammengefasst. Daher wirkt es so als fällt die Anzahl mit wachsendem „x“. Das Säulendiagramm der Häufigkeiten zeichnet ein genaueres Bild.

Ein stetiges Merkmal#

Der Datensatz LakeHuron enthält jährliche Messungen des Pegelstands von Lake Huron (aus den Jahren 1875-1972) in Fuß. Wir schauen uns den Datensatz an und rechnen dies anschließend in Meter um.

sort(LakeHuron)

pegel <- sort(LakeHuron*0.3048) 
  1. 575.96
  2. 576.24
  3. 576.75
  4. 576.75
  5. 576.8
  6. 576.84
  7. 576.85
  8. 576.89
  9. 576.9
  10. 576.9
  11. 576.94
  12. 577.13
  13. 577.21
  14. 577.23
  15. 577.38
  16. 577.51
  17. 577.68
  18. 577.79
  19. 577.79
  20. 577.82
  21. 577.91
  22. 577.95
  23. 578.05
  24. 578.09
  25. 578.12
  26. 578.18
  27. 578.18
  28. 578.19
  29. 578.24
  30. 578.25
  31. 578.38
  32. 578.42
  33. 578.44
  34. 578.52
  35. 578.64
  36. 578.66
  37. 578.67
  38. 578.69
  39. 578.76
  40. 578.82
  41. 578.86
  42. 578.92
  43. 579
  44. 579.01
  45. 579.05
  46. 579.09
  47. 579.1
  48. 579.1
  49. 579.1
  50. 579.14
  51. 579.16
  52. 579.22
  53. 579.24
  54. 579.26
  55. 579.31
  56. 579.32
  57. 579.35
  58. 579.37
  59. 579.37
  60. 579.38
  61. 579.48
  62. 579.51
  63. 579.55
  64. 579.55
  65. 579.61
  66. 579.61
  67. 579.67
  68. 579.72
  69. 579.74
  70. 579.75
  71. 579.79
  72. 579.8
  73. 579.83
  74. 579.89
  75. 579.89
  76. 579.91
  77. 579.96
  78. 579.96
  79. 580.01
  80. 580.01
  81. 580.13
  82. 580.14
  83. 580.38
  84. 580.39
  85. 580.41
  86. 580.42
  87. 580.53
  88. 580.58
  89. 580.8
  90. 580.82
  91. 580.85
  92. 580.97
  93. 581.17
  94. 581.32
  95. 581.4
  96. 581.44
  97. 581.68
  98. 581.86

Mit dem summary() Befehl erzeugen wir wichtige Kennzahlen. Ein paar weitere Kennzahlen berechnen wir danach.

summary(pegel)

cat("Standardabweichung: ", sd(pegel), "\n\n")

cat("Varianz: ", var(pegel), "\n\n")

cat("Interquartilsabstand: ", quantile(pegel,0.75)-quantile(pegel,0.25), "\n\n")

cat("Spannweite: ", max(pegel)-min(pegel), "\n\n")
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  175.6   176.2   176.5   176.5   176.7   177.4 
Standardabweichung:  0.4018174 
Varianz:  0.1614572 
Interquartilsabstand:  0.530352 
Spannweite:  1.79832 

Wenig aussagekräftig ist die Häufigkeitstabelle. Ebenso das Säulendiagramm und das Kreisdiagramm zu den Häufigkeiten. Das liegt vor allem daran, dass die meisten Werte der Stichprobe nur genau einmal vorkommen.

table(pegel)
barplot(table(pegel))
pie(table(pegel))
pegel
175.552608 175.637952   175.7934  175.80864 175.820832  175.82388 175.836072 
         1          1          2          1          1          1          1 
 175.83912 175.851312 175.909224 175.933608 175.939704 175.985424 176.025048 
         2          1          1          1          1          1          1 
176.076864 176.110392 176.119536 176.146968  176.15916  176.18964 176.201832 
         1          2          1          1          1          1          1 
176.210976 176.229264 176.232312 176.247552   176.2506 176.290224 176.302416 
         1          2          1          1          1          1          1 
176.308512 176.332896 176.369472 176.375568 176.378616 176.384712 176.406048 
         1          1          1          1          1          1          1 
176.424336 176.436528 176.454816   176.4792 176.482248  176.49444 176.506632 
         1          1          1          1          1          1          1 
 176.50968 176.521872 176.527968 176.546256 176.552352 176.558448 176.573688 
         3          1          1          1          1          1          1 
176.576736  176.58588 176.591976 176.595024 176.625504 176.634648  176.64684 
         1          1          2          1          1          1          2 
176.665128 176.683416 176.698656 176.704752   176.7078 176.719992  176.72304 
         2          1          1          1          1          1          1 
176.732184 176.750472 176.756568 176.771808 176.787048 176.823624 176.826672 
         1          2          1          2          2          1          1 
176.899824 176.902872 176.908968 176.912016 176.945544 176.960784  177.02784 
         1          1          1          1          1          1          1 
177.033936  177.04308 177.079656 177.140616 177.186336  177.21072 177.222912 
         1          1          1          1          1          1          1 
177.296064 177.350928 
         1          1 
../../_images/d462342587622c277998eeac4ad3d906c868b08c81a99642436948e97c4b18c5.png ../../_images/8a6c0fee0a0ac04f7b3f11d9580c91a0f51b0ed53c0236b11ebfa428c9e3aa6c.png

Grafiken, welche hier trotzdem sehr aussagekräftig sind: Histogramm (mit geeigneten Klassen), Boxplot und empirische Verteilungsfunktion.

hist(pegel)

boxplot(pegel)

plot(ecdf(pegel),cex=0.4)
../../_images/e6cf94f6d04503c0716ffc565f2b21c7b75b7752809eeee00f0d7690d5760033.png ../../_images/287e2ab4d819776d2a453150e809e704611a5b20d68e61a71e60d74462ee6655.png ../../_images/cdc72d6f7c6f3a96af18a0cb24ca69b77d0af6e8efa0f1b64cdc6b829764d035.png

Um Kreisdiagramm und Häufigkeitstabelle sinnvoll anwenden zu können müssen wir zuvor klassieren. Hier teilen wir die Daten in 8 Klassen.

table(cut(pegel,8))                                 # Häufigkeitstabelle der klassierten Daten

pie(table(cut(pegel,8)))                            # Kreisdiagramm der klassierten Daten

par(mar = c(5, 10, 4, 2))                           # Macht den linken Rand größer
                                                    # ohne den Befehlt wird die Beschriftung der y-Achse
                                                    # abgeschnitten
barplot(table(cut(pegel,8)),horiz = TRUE,las = 1)   # Barplot der klassierten Daten
(175.6,175.8]   (175.8,176]   (176,176.2] (176.2,176.5] (176.5,176.7] 
            2            13            10            16            25 
(176.7,176.9] (176.9,177.1] (177.1,177.4] 
           17             9             6 
../../_images/3a13505240e102161aba51e2b34eb3a9cf04601c287cf1e99b8528c0093cdaf7.png ../../_images/fa158649acc16e41f6ac7ad985c59df2c0bc59ec80adaa7b35eceadf7ed11356.png

Zusammenfassung#

Grafiken#

  • Diskrete Merkmale mit sehr wenigen Ausprägungen (z.B. 3):

    • Häufigkeitstabelle

    • Säulendiagramm der Häufigkeiten

    • Kreisdiagramm

    • empirische Verteilungsfunktion

  • Diskrete Mermale mit wenigen Ausprägungen (z.B. 10):

    • Häufigkeitstabelle

    • Säulendiagramm der Häufigkeiten

    • Kreisdiagramm der Häufigkeiten

    • empirische Verteilungsfunktion

    • Boxplot

  • Diskrete Merkmale mit vielen Ausprägungen oder stetige Merkmale

    • Histogramm

    • Boxplot

    • empirische Verteilungsfunktion

    • Klassierung und anschließend (Häufigkeitstabelle mit zugehörigem Balkendiagramm oder Kreisdiagramm)

Maßzahlen#

  • Die uns bekannten Maßzahlen sind alle für metrische Merkmale berechenbar.

  • Bei wenigen Ausprägungen sind Streuungsmaße und Quantile nicht sehr aussagekräftig.