Hochschule für Technik und Wirtschaft Dresden
Universtiy of Applied Sciences
Klassifikation von grammatischen und semantischen
Strukturen innerhalb natürlicher Sprachen mit
Growing-Hierarical-Self-Organizing-Maps
von
Paul Werner
18.03.2007
Inhaltsverzeichnis
1. Einführung
2. Belegarbeit
3. WordSomEncoder (Visual Studio 2005 / C++)
3.3 Binary Download
3.4 Source Download
4.4 Source Download
Auf dieser Welt existieren mehrere Tausend verschiedene natürliche Sprachen mit denen die Menschen auf verschiedene Art und Weise miteinander kommunizieren und interagieren. Zusätzlich gibt es dabei eine weitere Menge an untergeordneten Dialekten, die sich im Laufe der Zeit aufgrund sozialer und umweltlicher Einflüsse entwickelt haben.
Die Sprache beschränkt sich jedoch nicht nur auf die verbale Form, sondern kann in jedem Wahrnehumgsbereich als Instrument für intelligente Denkweisen und Handlungen angesehen werden. Mehr oder weniger unterbewusst nutzt jeder Mensch sein Sprachvermögen zum Lernen und Denken, wodurch die eigentlichen höherintelligenten Leistungen erzielt werden können. Sprache kann somit als notwendiger Bestandteil zur Bildung komplexer Abstraktionsvorgänge angesehen werden.
In der gegenwärtigen Informationstechnologie ist es eine der größten Probleme, natürliche Sprachen maschinell zu verstehen und zu verarbeiten, da bestimmte Strukturen in natürlichsprachlichen Äußerungen eine Analyse mit den typischen Ansätzen nahezu unmöglich machen. Das Auflösen von Mehrdeutigkeiten oder eine kontextabhängige Interpretation natürlicher Sprache führen bei algorithmischen Lösungsansätzen zu einer unüberschaubaren Komplexität. Derartige Probleme führen zu einem Dilemma und stellen die Forderungen an neue Herangehensweisen in der maschinellen Informationsverarbeitung. Der Ansatz wäre also naheliegend, sich an den Meschanismen unseres biologischen Vorbildes, also dem Nervensystem von Mensch und Tier zu orientieren.
Durch die intensive Forschung der letzten Jahrzehnte auf dem Gebiet der Neurobiologie und Neuroinformatik ist es mit Hilfe von leistungsstarken Computern möglich geworden, die biologischen Abläufe des Nervensystemes nachzubilden und authentisch zu simulieren. Neurologische Krankheitsbilder wie Schizophrenie oder Autismus konnten mit künstlichen neuronalen Netzen simuliert und besser verstanden werden. Teilweise konnten bereits psychologische Grundsatzfragen mit Hilfe von künstlichen neuronalen Netzen beantworten werden. Die Neuroinformationsverarbeitung ist eine Thematik, der man in der Zukunft viel Potential anrechnen kann, wenn man sich mit der erforderlichen Verantwortung zum biologischen Vorbild auseinandersetzt.
In den folgenden Ausarbeitungen soll gezeigt werden, dass die Fähgigkeit der Kommunikation und des Sprachverstehens mit komplexen natürlichen Sprachen kein alleiniges Privileg des Menschen ist, sondern dass mit einem neuronalen Netz, das wesentlich einfacher strukturiert ist als das Gehirn einer Weinbergschnecke, ähnliche Resultate erzielt werden können.
Im Rahmen des interdisziplinären Themenkomplexes der künstlichen Intelligenz möchte ich mit dieser Belegarbeit im Fach Neuroinformationsverarbeitung eine Ausarbeitung über die Fähigkeit der Analyse innerhalb natürlicher Sprachen mit Hife von Selbstorganisierenden Karten. Dabei soll jede Analogie zum biologischen Vorbild, dem Nervensystem von Menschen und Tieren, beleuchtet und diskutiert werden.
Ziel dieser Arbeit ist, ein System zu entwickeln, welches in der Lage ist, die Wörter aus einer hinreichend großen Menge von natürlichsprachlichen Texten, grammatisch zu klassifizieren. Das System soll also dazu fähig sein, grundlegende Wortarten wie Adjektive, Substantive und Verben aus einer gegebenen Textmenge zu kategorisieren. Innerhalb dieser Kategorien soll das System möglichst auch in der Lage sein, semantische Ähnlichkeiten der einzelnen Worte zu klassifizieren und in entsprechender räumlicher Nähe anordnen. Die Visualisierung der verschiedenen Klassen soll mit Hilfe von Karten und Bäumen realisiert werden. Wie beim Menschen, soll auch bei diesem System die Wahl der eigentlichen Sprache keine Rolle spielen, jedoch wird bei folgenden Versuchen eine Beschränkung auf die deutsche und englische Sprache vorgenommen, um die eigentliche Funktionsweise zu demonstrieren.
Die eigentliche Ausarbeitung liegt in Form einer PDF-Datei vor und kann hier heruntergeladen werden.
Die Benutzerdokumentation für das Programm WordSomEncoder zur Kodierung des Eingabetextes kann hier eingesehen werden (HTML).
Die Entwicklerdokumentation, bei der alle Klassen beschrieben werden, kann hier eingesehen werden (HTML).
Der Download der ausführbaren Datei „WordSomEncoder.exe“ kann komprimiert als ZIP-Archiv oder als TAR.GZ-Archiv heruntergeladen werden. Das Programm läuft unter Microsoft Windows.
Der Download der Quelltexte und Projektdateien für Microsoft Visual Studio 2005 kann komprimiert als ZIP-Archiv oder als TAR.GZ-Archiv heruntergeladen werden. Das Öffnen der Projektdateien erfordert Microsoft Visual Studio 2005.
Die Benutzerdokumentation für die Java-Applikation zur Simulation einer Growing-Hierarichal-Self-Organizing-Map kann hier eingesehen werden (HTML).
Die Entwicklerdokumentation für die Java-Applikation zur Simulation der Growing-Hierarichal-Self-Organizing-Map, kann hier eingesehen werden. Es werden dabei alle Klassen mit ihren Funktionalitäten beschrieben.
Das Jar-File zur Ausführung der Java-Applikation kann hier heruntergeladen werden (benötigt JRE 1.5.X).
Das komplette Java-Projekt mit allen Quellcodes und Klassen kann als komprimiertes ZIP-Archiv oder als TAR.GZ-Archiv heruntergeladen werden.
Im folgenden sollen zwei Anwendungsbeispiele zur Wordklassifikation in Texten durchgeführt werden. Die dabei enstandenen GHSOM's wurden in einer baumartigen HTML-Struktur hinterlegt. Jede einzelne Kohonenkarte stellt dabei eine HTML-Seite dar. Wenn für ein bestimmtes Neuron eine untergeordnete GHSOM vorhanden ist, dann kann man auf den Link „Tiefer“ klicken, um in die nächsttiefere GHSOM zu gelangen.
Im folgenden Anwendungsbeispiel wurde eine Menge an Zubereitungsanleitungen zum Backen von Kuchen herangezogen, um deren Worte mittels einer GHSOM grammatisch und semantisch zu klassifizieren. Der Quelltext kann hier angesehen werden. Nach dem Kodieren der Worte mit dem „WordSomEncoder“ und dem anschließenden Lernprozess mittels der Java-Applikation „WordGHSOM“ ist folgende GHSOM entstanden, die hier zu sehen ist.
Bei dem folgenden Text handelt es sich um einen Bericht der Baker-Kommision zur Beurteilung der Situationen im Irak, um neue Empfehlungen für künftige Strategien zu erarbeiten. Der Text ist in englischer Sprache verfasst und ist aufgrund seiner kurzen Berichtform eher suboptimal zur Analyse mit dieser GHSOM-Methode geeignet, wie man anhand folgender Ergebnisse sehen kann.