Grundlagen zur induktiven Statistik#

Was ist induktive Statistik?#

In der beschreibenden/deskriptiven Statistik stehen die Darstellung und Zusammenfassung von Daten im Vordergrund. Doch oft reicht es nicht aus, nur das zu analysieren, was man direkt beobachten kann. Viel häufiger möchten wir auf Basis einer Stichprobe Aussagen über eine größere Grundgesamtheit treffen – also über all jene, die nicht direkt befragt oder gemessen wurden. Genau hier setzt die induktive Statistik an.

Die induktive Statistik, auch schließende Statistik genannt, stellt Methoden bereit, mit denen wir aus Stichprobendaten auf allgemeine Zusammenhänge schließen können. Dabei steht immer eine zentrale Frage im Raum: Wie zuverlässig ist unser Schluss von der Stichprobe auf die Grundgesamtheit?

Typische Fragestellungen, mit denen sich die induktive Statistik befasst, sind zum Beispiel:

  • Hat eine neue medizinische Behandlung tatsächlich eine bessere Wirkung als die herkömmliche Behandlung - oder ist der beobachtete Unterschied in der Studie vielleicht nur Zufall?

  • Wie hoch ist der Anteil der Bevölkerung, der eine bestimmte politische Meinung vertritt - basierend auf einer Befragung von nur 1.000 Personen? Wie sicher kann man sich mit der Schätzung sein?

  • Besteht ein Zusammenhang zwischen der Nutzung sozialer Medien und dem Stressniveau unter Jugendlichen?

Bei all diesen Fragen reicht es nicht aus, nur die Ergebnisse der konkreten Stichprobe zu betrachten. Vielmehr brauchen wir Werkzeuge, um Unsicherheiten zu bewerten, Hypothesen zu testen und Schätzungen mit Vertrauensintervallen zu versehen. Die induktive Statistik liefert genau diese Werkzeuge – und ermöglicht es, aus Daten fundierte Entscheidungen zu treffen, auch wenn uns nur ein kleiner Ausschnitt der Wirklichkeit vorliegt.

Mathematische Modellierung von Stichproben#

Untersuchen wir ein Merkmal und wollen wissen wie dies in einer Grundgesamtheit verteilt ist, so lässt sich dies mit einer Zufallsvariable modellieren. Beispielsweise entsprechen sich die folgenden Begriffe von Verteilung:

  1. Uns interessiert die Verteilung der Körpergrößen von Frauen in Dresden.

  2. Wir ziehen zufällig eine Dresdner Frau. Die Zufallsvariable \(X\) beschreibt die Körpergröße der Frau. Uns interessiert die Verteilung von \(X\).

Die Verteilung eines Merkmals kann also mit der Verteilung der zugehörigen Zufallsvariable \(X\) identifiziert werden. In der Statistik nennt man diese Zufallsvariable \(X\) daher auch selbst Merkmal. Um etwas über die (Verteilung der) Zufallsvariable \(X\) zu erfahren, führen wir das Zufallsexperiment, welches von \(X\) beschrieben wird mehrfach hintereinander aus. Die verschiedenen Ausgänge des Zufallsexperiments sind uns zunächst nicht bekannt. Daher können wir sie nur theoretisch mit Zufallsvariablen

\[X_1,X_2,\dots, X_n.\]

Diese sind unabhängig und identisch wie \(X\) verteilt. Man nennt diese \(n\) Zufallsvariablen mathematische Stichprobe.

Werden die \(n\) Experimente nun durchgeführt ergeben sich konkrete Werte. Diese bezeichnen wir mit Kleinbuchstaben

\[x_1,x_2,\dots, x_n\]

und nennen dies konkrete Stichprobe.