Modellierung - Wissenschaftliches Rechnen (i788)

Der erste Schritt beim wissenschaftlichen Rechnen vom Problem zur Lösung ist das Modellieren des zu lösenden Problems, also das Formulieren des Problems in der Sprache der Mathematik. Hier gibt es viel Spielraum. Sehr einfache Modelle lassen sich leichter algorithmisch lösen, geben die Realität unter Umständen aber zu ungenau wieder. Komplexe Modelle hingegen liefern deutlich besser verwertbare Ergebnisse, so man sie algorithmisch überhaupt umgesetzt bekommt. Schon beim Modellieren müssen die algorithmischen Möglichkeiten mitgedacht werden!

2.1Anforderungen an ein gutes Modell¶

Als grundlegende Anforderungen an ein Modell können die sogenannten Hadamard-Bedingungen gelten:

Existenz: Das Modell besitzt eine Lösung.
Eindeutigkeit: Das Modell besitzt genau eine Lösung.
Stetigkeit: Die Lösung hängt stetig von den Eingaben ab. Kleine Änderungen in den Eingaben resultieren also auch nur in kleinen Änderungen bei der Lösung.

Ein Modell, das keine Lösung besitzt, ist offensichtlich wertlos. Die Forderung nach Eindeutigkeit ist weniger wesentlich. Manchmal lässt der modellierte Sachverhalt keine eindeutige Lösung zu, z.B. weil zu wenig Messdaten vorhanden sind. In solch einem Fall sollte bei der Modellierung allerdings geprüft werden, ob Eindeutigkeit der Lösung durch sachlich begründbare Zusatzannahmen erreicht werden kann. Nicht-Eindeutigkeit führt oft zu Problemen bei der algorithmischen Umsetzung.

Beispiel (Schlierentomografie)

Bei der Schlierentomografie werden Schlierenfotos eines Flüssigkeitsvolumens (meist ein mit Wasser gefüllter Glaszylinder) aus verschiedenen Richtungen aufgenommen. Aus diesen Fotos kann dann die Druckverteilung in der Flüssigkeit rekonstruiert werden. Die Schlierentomografie ist beispielsweise ein Standardwerkzeug zur Untersuchung des Schalldruckbildes von Ultraschallsonden.

Schema der Schlierenbildgebung. Ungebeugtes Licht wird weggefiltert. Nur Lichtstrahlen, die durch Druckschwankungen laufen, erreichen die Bildfläche. Je stärker das Licht an einer Stelle im Wassertank gebeugt wird, desto heller der entsprechende Bildpunkt.

Die Schlierenfotos enthalten keine Vorzeicheninformationen, also keine Information darüber, ab in einer Region Unter- oder Überdruck herrscht. Entsprechend hat das Tomografieproblem (also die 3D-Rekonstruktion der Druckverteilung) stets zwei Lösungen, die sich gerade im Vorzeichen unterscheiden. Um Eindeutigkeit zu erzwingen, müsste man das Vorzeichen in einer Über- bzw. Unterdruckzone vorgeben. Allerdings weiß man im Vorfeld meist nicht, wo Abweichungen vom Normaldruck liegen.

Die Forderung nach Stetigkeit entspricht dem Begriff der Kondition in der numerischen Mathematik. Hängt die Lösung nicht stetig von den Eingaben ab, so ist das Modell unbrauchbar. Schon kleine, unvermeidbare Rundungsfehler führen zu völlig anderen Ergebnissen als die exakten Werte. Praktisch werden die Eingaben oft Messwerte sein und damit ohnehin einen großen Fehler aufweisen. Verletzt ein ansonsten plausibles Modell die Stetigkeitsforderung, so können allgemein anwendbare Techniken eingesetzt werden, um daraus ein stetiges Modell abzuleiten. Als Beispiel für diese Problematik diskutieren wir später die Computertomografie im Detail.

Die Forderungen von Hadamard stammen aus den 1930er Jahren, wurden also noch vor dem Beginn des Computerzeitalters formuliert. Heute müssen wir noch eine vierte Forderung formulieren:

algorithmische Lösbarkeit: Das Modell muss mit dem Computer lösbar sein, es muss also ein Algorithmus existieren, der die Lösung wenigstens näherungsweise liefert.

Negativbeispiele sind hier vorallem nichtglatte nichtlineare Optimierungsprobleme, die oft als naheliegendes, einfach zu formulierendes Modell auftreten, aber mangels geeigneter Algorithmen praktisch nicht lösbar sind.

2.2Klassische Modelle¶

Als klassische Modelle verstehen wir alle Modelle, die folgenden Kriterien genügen:

Die Eingaben sind Zahlen oder Funktionen.
Die Ausgaben sind Zahlen oder Funktionen.
Der Zusammenhang lässt sich mit einfachen mathematischen Werkzeugen in wenigen Formeln darstellen.

Meist wird der Zusammenhang zwischen Ein- und Ausgaben über (partielle) Ableitungen und/oder Integrale von Funktionen dargestellt. Diese werden dann in Gleichungssystemen oder Optimierungsproblemen zu einander in Beziehung gesetzt.

Typische Beispiele sind Modelle aus der klassischen Mechanik, die aus dem Newton’schen Gesetz “ $F=m\,a$ ” gewonnen wurden, und Modelle, die aus Erhaltungssätzen (Erhaltung von Masse, Energie, Trägheitsmoment,...) entstanden sind.

Gegenbeispiel sind quantentheoretische Modelle, die für die Formulierung meist lineare Abbildungen zwischen unendlichdimensionalen Vektorräumen benötigen, sowie statistische und datenbasierte Modelle (siehe unten).

2.3Beispiele¶

2.3.1Momentangeschwindigkeit¶

Zu festen Zeitpunkten $t_1,\ldots,t_n$ wird der bis zum jeweiligen Zeitpunkt zurückgelegte Weg $s_1,\ldots,s_n$ gemessen. Gesucht sind die Momentangeschwindigkeiten $v_1,\ldots,v_n$ zu jedem Messzeitpunkt.

Ein mögliches Modell zur Berechnung der Momentangeschwindigkeit ergibt sich direkt aus der Definition:

Eingaben: Weg-Zeit-Zusammenhang $t\mapsto s(t)$ und Zeitpunkt $t^\ast$ .
Ausgabe: Momentangeschwindigkeit $v^\ast$ zur Zeit $t^\ast$ .
Zusammenhang: $v^\ast=s'(t^\ast)$ .

Für den praktischen Einsatz des Modells werden wir dieses diskretisieren müssen. Die Eingabefunktion $s$ werden wir durch eine auf den Messwerten $s_1,\ldots,s_n$ basierenden Näherung ersetzen müssen. Die Ausgabe besteht nur aus einer Zahl, sodass hier keine Diskretisierung nötig ist. In Abhängigkeit von der Diskretisierung ist dann noch zu klären, wie $s'$ ausgewertet werden kann.

Nebenbemerkung

Dass das Modell kontinuierlich ist, also auf Funktionen basiert, mag übertrieben aufwendig erscheinen, da ja klar ist, dass nur endliche viele Messwerte zur Verfügung stehen. Der Begriff der Momentangeschwindigkeit lässt aber kein diskretes Modell zu. Für die Formulierung des Modells müssen wir also auf Funktionen zurückgreifen. Wie gut die (theoretischen) Ergebnisse des Modells sich dann praktisch aus endlich vielen Messungen annähern lassen, muss im Rahmen der Diskretisierung geklärt werden.

Wir werden sehen, dass es für die Diskretisierung sehr viele verschiedene Möglichkeiten gibt. Der direkte Vergleich dieser Möglichkeiten ist oft komplizierter als der Vergleich mit einem kontinuierlichen “Referenzmodell”, sodass man auch in Zeiten von computerbedingt endlichdimensionaler Arbeitsweise an kontinuierlichen (und damit unendlichdimensionalen) Modellen interessiert ist.

Ein anderes, in gewisser Hinsicht leichter handhabbares Modell ergibt sich aus dem Hauptsatz der Differential- und Integralrechnung:

s(t)=s(0)+\int_0^t s'(\tau)\diff\tau.

(3)

Nehmen wir $s(0)=0$ an und bezeichnen wir für beliebige Funktionen $g:[0,T]$ mit $F(g)$ die Funktion

\bigl(F(g)\bigr)(t):=\int_0^t g(\tau)\diff\tau, \quad t\in[0, T],

(4)

so ist die Momentangeschwindigkeit $v$ (zu jedem Zeitpunkt) die Lösung der Integralgleichung

F(v)=s.

(5)

Entsprechend folgt dann $v^\ast=v(t^\ast)$ . Diskretisieren der Gleichung wird auf ein lineares Gleichungssystem führen.

Wir haben also zwei recht unterschiedliche Modelle (Ableitung vs. Integralgleichung) für ein und das selbe Problem gefunden. Später werden wir uns genauer mit deren Diskretisierung, sowie Vor- und Nachteilen befassen.

2.3.2Brachistochrone¶

Hatten schon kurz ein Modell für das Brachistochronen-Problem erwähnt. Leiten dieses nun aus elementaren physikalischen Gegebenheiten her.

Vereinfachen durch geeignete Wahl des Koordinatenursprungs die Notation etwas: Die Kugel starte im Punkt $(0,0)$ zur Zeit $t=0$ und komme am Endpunkt $(\bar{x},\bar{y})$ zur Zeit $T>0$ an. Die Bahn werde durch eine Funktion $h:[0,\bar{x}]\to\bbR$ beschrieben. Alternativ ist auch die Schreibweise $(x(t),y(t))$ für die Position der Kugel zum Zeitpunkt $t$ nützlich. Zu berechnen ist die benötigte Zeit $T$ in Abhängigkeit von der Bahn $h$ . Benötigte physikalische Größen und Gesetze:

$E_{\mathrm{pot}}(t)=m\,g\,h(x(t))$ (potentielle Energie der Kugel zur Zeit $t$ relativ zum Startpunkt; $m$ ist Masse der Kugel; $g$ ist die Fallbeschleunigung),
$E_{\mathrm{kin}}(t)=\frac{1}{2}\,m\,v(t)^2$ (kinetische Energie der Kugel zur Zeit $t$ ; $v(t)$ ist der Betrag der Geschwindigkeit zur Zeit $t$ ),
$E_{\mathrm{pot}}+E_{\mathrm{kin}}=0$ zu jeder Zeit (bei $t=0$ klar; anschließend gilt Energieerhaltung).

Daraus erhält man die Formel

T(h)=\frac{1}{\sqrt{2\,g}}\,\int_0^{\bar{x}}\sqrt{\frac{1+h'(x)^2}{-h(x)}}\diff x

(6)

(IDVID 210). Die schnellste Bahn ist somit die Lösung des Minimierungsproblems

T(h)\to\min_{h\in H},

(7)

wobei $H$ die Menge aller auf $[0,\bar{x}]$ stetig differenzierbaren Funktionen ist.

Die Polstelle im Integrand bei $x=0$ (also $h(x)=0$ ) ist unkritisch, da die minimierende Funktion $h$ endliches Integral besitzen wird, sofern mindestens ein $h$ in $H$ diese Eigenschaft hat (z.B. $h(x)=-\sqrt{x}$ ).

Das gefundene Minimierungsproblem als Modell für die Berechnung der Brachistochrone lässt sich sogar analytisch lösen, muss also nicht zwingend numerisch gelöst werden. Das Problem gehört aber zu einer allgemeineren Klasse von Problemen, die sich nicht immer analytisch lösen lassen:

\int_{x_1}^{x_2}F\bigl(h(x),h'(x),x\bigr)\diff x\to\min_{h\in H}

(8)

mit einer das konkrete Problem definierenden Funktion $F:\bbR^3\to\bbR$ , wobei $h(x_1)$ und $h(x_2)$ gegeben sind.

2.3.3Pendel¶

Die Bewegung eines Fadenpendels kann als Funktion $\varphi:[0,\infty)\to[-\frac{\pi}{2},\frac{\pi}{2}]$ beschrieben werden, die zu jedem Zeitpunkt $t$ die Auslenkung des Pendels als Winkel relativ zur Ruheposition angibt. Sind $\varphi(0)$ (Anfangsauslenkung) und $\varphi'(0)$ (Anfangswinkelgeschwindigkeit) vorgegeben, so ist der Bewegungsablauf durch das Newton’sche Gesetz

F(t,x(t),y(t))=m\,\begin{bmatrix}x''(t)\\y''(t)\end{bmatrix},\quad t>0,

(9)

eindeutig vorherbestimmt. Dabei geben $x(t)$ und $y(t)$ die Koordinaten der Pendelmasse $m$ zur Zeit $t$ an und $F$ ist die auf die Pendelmasse wirkende Kraft. Diese kann prinzipiell von der Position (und somit indirekt von der Zeit) und auch direkt von der Zeit abhängen (Pendel befindet sich z.B. in einer zeitlich und räumlich veränderlichen Luftströmung). Wirkt nur die Schwerkraft, so erhält man aus dem Newton’schen Gesetz die Gleichung

\varphi''(t)+\frac{g}{l}\,\sin\varphi(t)=0

(10)

zur Beschreibung der Pendelbewegung (IDVID 230). Diese ist eine nichtlineare gewöhnliche Differentialgleichung zweiter Ordnung, die sich nur sehr mühsam analytisch lösen lässt.

Für kleine Auslenkungen kann man die Näherung

\sin\varphi(t)\approx\varphi(t)

(11)

verwenden um eine einfacher zu lösende lineare gewöhnliche Differentialgleichung zu erhalten:

\varphi''(t)+\frac{g}{l}\,\varphi(t)=0.

(12)

Der dabei entstehende Modellfehler ist um so größer je größer die Auslenkung des Pendels ist. Ob die Situation diese Vereinfachung rechtfertigt, muss im Einzelfall entschieden werden. Zu bedenken ist, dass auch das nichtlineare Modell schon Fehler enthält, z.B.:

Vernachlässigung der Reibung,
Idealisierung von Seil und schwingendem Objekt als Massepunkt,
Vernachlässigung der Dehnung des Seils durch Zugkraft.

2.3.4Zerfalls- und Wachstumsprozesse¶

Zerfallsprozesse und Wachstumsprozesse können durch gewöhnliche Differentialgleichungen beschrieben werden. Betrachten hier beispielhaft einen konkreten Zerfallsprozess: Eine zum Zeitpunkt $t=0$ vorhandene Masse $m_0$ eines Materials unterliege dem radioaktiven Zerfall. Zu jedem Zeitpunkt $t\geq 0$ ist die Masse $m(t)$ des noch nicht zerfallenen Materials gesucht. Die Funktion $m:[0,\infty)\to\bbR$ soll durch eine gewöhnliche Differentialgleichung mit Anfangsbedingung beschrieben werden.

Dazu zunächst zwei Beobachtungen:

Da Zerfallsprozesse je nach Material und Umgebung unterschiedlich schnell verlaufen können, muss die gesuchte Differentialgleichung einen Parameter enthalten, in den die Zerfallsgeschwindigkeit eingeht.
Aus der Beobachtung von Zerfallsprozessen ist bekannt, dass der in einem Zeitintervall zerfallende Massenanteil nicht von der am Intervallanfang vorhandenen Masse abhängt, sondern nur von der Länge des Intervalls.

Daraus erhält man die Beziehung

m'=c\,m

(13)

(IDVID 250). Dies ist eine homogene lineare Differentialgleichung erster Ordnung mit konstanten Koeffizienten. Sie drückt aus, dass die Änderung $m'$ der Materialmenge stets proportional zur vorhandenen Materialmenge $m$ ist.

Die Anfangsbedingung ist

m(0)=m_0.

(14)

Für $c>0$ sind die Lösungen offensichtlich monoton wachsend, sonst monoton fallend. Die allgemeine Lösung ist

m(t)=a\,\rme^{c\,t}

(15)

mit $a\in\bbR$ . Einsetzen des Anfangswertes liefert

m(t)=m_0\,\rme^{c\,t}.

(16)

2.4Statistische Modelle¶

Sind Eingabe und/oder Ausgaben statistische Größen (Zufallsgrößen, Verteilungsfunktionen, Dichtefunktionen,...) so spricht man von statistischen Modellen. Diese unterscheiden sich sowohl in der Herleitung als auch in der algorithmischen Behandlung wesentlich von den klassischen Modellen.

Statistische Modelle treten in allen Wissenschaftsgebieten auf, in denen Systeme als Zusammenspiel sehr vieler gleichartiger Einzelsysteme untersucht werden. Die Spannbreite reicht von den Sozialwissenschaften über die Wirtschaftswissenschaften bis zur Physik.

Beispiel (Wiener-Prozess)

Konkretes Beispiel für ein statistisches Modell aus der Physik ist der Wiener-Prozess zur Beschreibung der Brown’schen Bewegung. Ausgabe des Modell ist eine zufällige Funktion $f:[0,\infty)\to\bbR$ , welche jedem Zeitpunkt die Position eines sich zufällig entlang einer Achse vor oder zurück bewegenden Teilchens zuordnet. Dabei folgen die Differenzen der Positionen zu zwei verschiedenen Zeitpunkten einer Normalverteilung, deren Mittelwert von der Zeitdifferenz abhängt (je mehr Zeit vergangen ist, desto größer ist der Abstand im Mittel).

Der Wiener-Prozess liefert bei gegebenen Parametern (Eingaben) also keine konkrete Funktion als Ergebnis, sondern stets eine andere. Statt an einer einzelnen Funktion ist man an der Wahrscheinlichkeitsverteilung über alle möglichen Funktionen interessiert, sodass diese als Ausgabe des Modells zu betrachten ist.

In der Physik gibt es das Teilgebiet der statistischen Physik, welche statistische Modelle nutzt um insbesondere eine Vielzahl thermodynamischer Zusammenhänge zu formulieren. Statt eine extrem große Anzahl von interagierenden Teilchen durch teilchenbasierte Einzelmodelle zu beschreiben (was die verfügbare Rechenleistung von Computern gar nicht erlaubt), werden nur die statistischen Eigenschaften des Gesamtsystems untersucht.

2.5Datenbasierte Modelle¶

Möchte man einen komplexen Vorgang modellieren, zu dessen Abbildungsverhalten schon sehr viele Messwerte vorliegen (welche Eingabe liefert welche Ausgabe?), so kann man automatisiert aus den Messwerten ein Modell generieren, welches dieses Abbildungsverhalten auf die Menge aller möglichen Eingaben verallgemeinert. Diese Form des Modellierens wird als datenbasiertes Modellieren oder als maschinelles Lernen bezeichnet.

Seien $(x_1,y_1),\ldots,(x_n,y_n)$ Paare von Eingaben (Vektoren in $\bbR^m$ ) und zugehörigen Ausgaben (reelle Zahlen), die sogennanten Trainingsdaten, und sei $f:\bbR^m\to\bbR$ eine von reellen Parametern $w_1,\ldots,w_p$ abhängige Funktion. Dann ist das Minimierungsproblem

\sum_{l=1}^n\bigl(f(x_l)-y_l\bigr)^2\to\min_{w_1,\ldots,w_p}

(17)

zu lösen. Die daraus erhaltenen Parameter liefern ein konkretes $f$ als Modell für den Zusammenhang zwischen beobachteten Ein- und Ausgaben, welches auch bisher nicht beobachtete Eingaben verarbeiten kann.

Typische Wahlen für $f$ sind Linearkombinationen einfacher Ansatzfunktionen (z.B. Monome, Hütchenfunktionen) oder speziell strukturierte, rekursiv definierte Verschachtelungen sehr einfacher Grundfunktionen (z.B. nichtlinear transformiertes Skalarprodukt aus Eingabevektor und Parametervektor). In ersterem Fall spricht man von linearer Regression, im zweiten Fall von künstlichen neuronalen Netzen.

Vorteile gegenüber klassischen Modellen:

Physikalische oder anderweitige Zusammenhänge zwischen Ein- und Ausgaben müssen nicht bekannt sein.
Leichte algorithmische Auswertung der Modelle (zur Eingabe $x$ berechne den Funktionswert $f(x)$ ).

Nachteile:

Zuverlässigkeit bei Eingaben, die nicht sehr nah an den Trainingsdaten sind, ist unklar.
Bereich der Eingaben, die korrekte Ausgaben liefern, ist unklar.
Lösung des Minimierungsproblems ist im Fall neuronaler Netze sehr aufwendig. Meist ist nur eine sehr grobe Näherung des eigentlichen Minimierers verfügbar.
Es sind keine strukturellen Erkenntnisse aus dem Modell ableitbar (Warum gerade diese Ausgabe? “Black-Box”).
Es werden große Mengen qualitativ hochwertiger Trainingsdaten benötigt.

Beispiel (Suszeptibilitätsgewichtete Magnetresonanztomografie)

Die verschiedenen Gewebearten von Tier und Mensch lassen sich in einem externen Magnetfeld unterschiedlich stark magnetisieren, d.h. sie besitzen unterschiedliche magnetische Suszeptibilität. Mit entsprechend konfigurierten Magnetresonanztomografen kann man die Suszeptibilität in einem komplexen Prozess ortsaufgelöst messen und erhält so eine dreidimensionale Darstellung der Gewebestrukturen. Die suszeptibilitätsgewichtete Bildgebung ist noch in aktiver Entwicklung.

Die physikalischen Vorgänge sind komplex und die Interaktion der Magnetfelder mit dem Gewebe noch nicht vollständig verstanden. Insbesondere muss die Modellierung eine Vielzahl technischer Parameter des verwendeten MR-Tomografen berücksichtigen. Ein möglicher Ausweg ist die Kombination von klassischem Modell für die “grobe” physikalische Modellierung und datenbasiertem Modell für die Feinabstimmung. Das nachgelagerte datenbasierte Teilmodell kann, sofern hinreichend gute Trainingsdaten vorhanden sind, Modellfehler des klassischen Modells verringern. Ein ausschließlich datenbasierter Ansatz würde viel mehr Trainingsdaten benötigen und aufgrund des Black-Box-Verhaltens künstlicher neuronaler Netze nicht die in medizinischen Anwendungen benötigte Zuverlässigkeit liefern.

2 Modellierung