Ein erster Schritt zur Evolution von Sprache:
Die Entstehung eines gemeinsamen Lexikons



Alexander Nittka



Universität Leipzig
Fakultät für Mathematik und Informatik
Institut für Informatik

Problemseminar Robotik
Wintersemester 2001/2002
Professor Der


Gliederung

1. Einleitung
1.1. Natürliche Sprache
1.2. Kommunikation bei autonomen Agenten
1.3. Symbolverankerung
1.4. Sprachspiele

2. Die Experimente
2.1. Talking Heads
2.2. Lampenwelt
2.3. AIBO's erste Worte
2.4. Zusammenfassender Vergleich

3. Weiterführende Fragen

Fußnoten
Abbildungen
Bibliographie


1. Einleitung

In dieser Arbeit sollen drei Experimente zur Kommunikation in einer Populationen von autonomen Agenten vorgestellt werden, die zeigen, daß derartige Untersuchungen einen wichtigen Beitrag zum Test von Modellen der Entwicklung von natürlicher Sprache liefern können und mögliche wichtige Faktoren aufzeigen. Sie zeigen insbesondere, daß sich das Symbolverankerungsproblem durch Selbstorganisation in der Population lösen läßt. Dazu werden von Ludwig Wittgenstein inspirierte Sprachspiele verwendet. Im Anschluß folgt eine kleine Diskussion, inwieweit die Ansätze auch ausreichend für den Aufbau eines Kommunikationssystems in realen Anwendungen sind.

1.1. Natürliche Sprache

Es wird wohl niemand mehr in Frage stellen, daß es sich bei natürlicher Sprache um ein dynamisches System handelt. Neue Worte tauchen auf, alte verschwinden, ihre Bedeutung verändert sich auf individueller und kultureller Ebene. Auch die Grammatik unterliegt Wandlungen. Diese Prozesse laufen auf verschiedenen Ebenen ab. Der Sprachgebrauch einer einzelnen Person entwickelt und verändert sich im Laufe des Lebens. Bestimmte Generationen oder soziale Schichten scheinen sich durch eigene sprachliche Besonderheiten auszuzeichnen.
Der Versuch, natürliche Sprache mit statischen Grammatiken zu erzeugen, muß aufgrund dieser Dynamik scheitern. Folglich müssen andere umfassendere Modelle gefunden werden, die in der Lage sind, diese zu behandeln. Da die Evolution von Sprache nicht wie die von Lebensformen auf genetischer, sondern auf kultureller Ebene stattfindet, bietet sich die Untersuchung der Dynamik innerhalb von Populationen an.
Zwei der Fragen, die sich stellen, sind: Wie erlernt ein Mensch den Gebrauch der Sprache? Und wie hat sich Sprache an sich entwickelt? Von Interesse sind an dieser Stelle nicht das Erzeugen von Geräuschen oder anderer scheinbar willkürlicher Zeichen, deren Imitation oder die Entstehung von Grammatik, obwohl auch diese Bereiche in der Forschung behandelt werden, sondern vielmehr die Herausbildung von Bedeutung.

1.2. Kommunikation bei autonomen Agenten

Wenn mehrere autonome Agenten in einem realen Umfeld gemeinsam eine komplexe Aufgabe lösen sollen, werden sie zwangsläufig kommunizieren müssen, um Pläne abzugleichen, ihre Aktionen zu koordinieren, kurz, sich gegenseitig über verschiedenste Dinge zu informieren. Dabei wird es unter anderem um reale Objekte gehen, die benannt werden müssen. Der Versuch, die Abbildung von Sensordaten auf die Benennung der Objekte durch eine feste Programmierung vorzudefinieren, ist zum Scheitern verurteilt. Zum einen verursachen die Objekte unter verschiedenen Umweltbedingungen unterschiedliche Sensordaten, deren Vielfalt nicht vorhersagbar ist. Zum anderen können im Laufe der Zeit auch neue Objekte hinzukommen, an die bei der Programmierung noch nicht zu denken war. Weiterhin kann nicht davon ausgegangen werden, daß die Programmierung aller Agenten konsistent erfolgt, d.h. daß sie dieselben Worte benutzen oder die Objekte auf gleiche Weise klassifizieren.

1.3. Symbolverankerung

Wie erhalten nun aber willkürliche Zeichen eine Bedeutung? Hier stellt sich das Problem der Symbolverankerung. Eine wichtige Rolle in der Wissenschaft spielt dabei das Modell des Symbols als semantisches Dreieck (Abbildung 1), bestehend aus den Eckpunkten Objekt (der realen Welt), Bedeutung (interner Repräsentation des Objekts) und Wort (der Sprache)1. Ist die Beziehung zwischen den drei Bestandteilen hergestellt, gilt das Symbol als verankert. Der Mensch kann das Symbolverankerungsproblem ziemlich gut lösen, wenn auch nicht perfekt. Zur Veranschaulichung sei daran erinnert, wie sich Vorstellungen, die mit bestimmten Worten verbunden waren oder sind (z.B. "die Erde ist eine Scheibe", "Käse schmeckt mir nicht"), ändern können, wenn sie in der Realität unhaltbar werden. Es stellt sich nun die Frage, ob sich eine Maschine konstruieren läßt, die eine ähnliche Fähigkeit aufweist. Ein reines Symbolverarbeitungssystem2 reicht zur Lösung des Symbolverankerungsproblems nicht aus, da ihm durch die fehlende Interaktion mit der Umwelt die Herstellung der Beziehung zwischen Objekt und Bedeutung unmöglich ist. Eine große Schwierigkeit, auf die Entwickler stoßen, ist die Tatsache, daß Objekte unter verschiedenen Umweltbedingungen (Lichtverhältnisse, Blickwinkel usw.) unterschiedliche Sensordaten verursachen, womit eine 1:1-Abbildung von Objekten auf Daten nur in praktisch unbedeutenden Spielzeugwelten möglich ist. Damit wird auch klar, wie groß der Einfluß ist, den das so genannte Embodiment, die Körperlichkeit, für derartige Systeme hat. Andersartige Körper, aber auch verschiedene Körper der gleiche Art, implizieren aufgrund unterschiedlicher Sensorik oder räumlicher Trennung unterschiedliche Wahrnehmungen und damit Erfahrungen der Agenten, die sich letztlich in unterschiedlich verankerten Symbolen niederschlagen können. Weiterhin ist das Vordefinieren von Bedeutungen, wie schon angedeutet, nicht nur praktisch unmöglich, sondern, wenn man an natürliche Sprache denkt bzw. deren Entwicklung modellieren will, auch unrealistisch.
Es ist klar, daß nicht das gesamte semantische Dreieck im Agenten gespeichert werden kann. Lediglich Bedeutung und Wort können repräsentiert werden. Das zugehörige Objekt der realen Welt ist durch die Abbildung der Sensordaten auf die Bedeutung (Konzeptbildung) implizit repräsentiert. Darin ist aber wieder eine Schwierigkeit verborgen. Es ist alles andere als trivial, eine gute Abbildung zu finden. Aus Komplexitätsgründen kann nicht jedem Punkt des Sensorraumes einfach eine Bedeutung zugeordnet werden. Selbst wenn genügend Speicher zur Verfügung stände, wäre der Suchaufwand so groß, daß Echtzeitanforderungen nicht erfüllt werden könnten. Jede Reduktion der Daten birgt aber das Problem, daß unterschiedliche Objekte gleich eingeordnet werden könnten und damit für das System nicht mehr unterscheidbar wären.
In der Wissenschaft werden zwei Meinungen vertreten. Die eine besagt, daß Konzepte angeboren sind, daß also die Bausteine, die die Bedeutung ausmachen, schon vorhanden sein müssen, die andere, daß Konzepte gelernt werden können. Eine Zielstellung der später beschriebenen Experimente war es, zu zeigen, daß konsistente Symbolsysteme auch ohne vorheriges Wissen über Konzepte entstehen können, diese also erlernbar sind.
Technisch kann die Symbolverankerung in drei Schritte untergliedert werden. Zuerst müssen die analogen Signale in interne Repräsentationen überführt werden (Iconisation). Dabei sollten durch so genannte Feature Extraction relevante Daten gewonnen werden. Diese werden im zweiten Schritt zur Unterscheidung zwischen verschiedenen Signalen und damit zur Einordnung in unterschiedliche Kategorien genutzt (Discrimination). Im letzten Schritt wird der Kategorie und damit einer Klasse als gleich betrachteter Inputs ein Name zugeordnet (Identification).

Um die weiter oben beschriebenen Probleme zu lösen, muß also ein System modelliert werden, das ein verankertes Symbolsystem selbst erzeugt. Dabei muß das System genügend Freiheit bei der Konzeptbildung haben. Es soll ja Bedeutungen erzeugen, die die Objekte möglichst gut voneinander unterscheiden. Das Symbolsystem selbst muß dynamisch sein, um auf Veränderungen in der Umwelt reagieren zu können. Soll, wie oben beschrieben, dieses auch zur Kommunikation dienen, sind weitere Forderungen zu erfüllen. Die Menge der verschiedenen Symbolsysteme muß möglichst konsistent sein, d.h. gleiche Objekte müssen durch die verschiedenen Agenten gleich benannt werden bzw. die Benennung sollte zumindest zum passiven Wortschatz gehören. Um das zu erreichen, müssen neue Wörter adaptiert und Bedeutungen angepaßt werden können, d.h. es muß ein lernendes System modelliert werden.

1.4. Sprachspiele

Wittgensteins These ist, daß sich die Bedeutung eines Wortes durch seinen Gebrauch in der Sprache definiert. Ein Kleinkind erlernt Sprache im allgemeinen durch Interaktion mit den Eltern. Das Kind hält einen Ball in der Hand und betrachtet ihn, die Mutter sagt "Ball". Irgendwann imitiert das Kind die in dieser Situation wahrgenommenen Geräusche und sagt auch "Ball". Die Interaktionen beschränken sich aber nicht auf solche, die ein Objekt benennen. In einer anderen Situation könnte das Kind "Keks" sagen, nicht um einen zu benennen, sondern um zu erreichen, daß ihm einer gegeben wird. Es benutzt Worte, um eine Handlung zu erreichen. Alle diese Interaktionen sind Sprachspiele. Und je nach dem Erfolg, den die Worte in solchen Spielen haben, wird ihre Bedeutung manifestiert. Sie wird also nicht über Abstraktion der Gemeinsamkeiten vieler Beispiele erschlossen, sondern durch Testen von Hypothesen über ihre Bedeutung durch eigenen Gebrauch in Sprachspielen festgelegt. Aufbauend auf einfachen Spielen und den durch sie gewonnenen Konzepten nimmt man an immer komplexeren teil.
Eine Reihe von Wissenschaftlern hat die Idee der Sprachspiele aufgegriffen und sie sich für die Modellierung von Systemen, die das Symbolverankerungsproblem lösen sollen, zunutze gemacht3. Wie bei Wittgenstein wird jede abgeschlossene Interaktion als einzelnes Spiel betrachtet. Der Aufbau eines gemeinsamen Lexikons erfolgt somit im Laufe einer unter Umständen großen Anzahl von Spielen. Gegenstand der Untersuchungen ist dabei nicht, wie die Sprachspiele selbst entstehen, welche also Kraft hinter dem Willen zur erfolgreichen Kommunikation und hinter der Einigung auf einen Ablauf des Spiels steht.
Je nach den verwendeten "Regeln" sind verschiedene Arten von Spielen möglich: Wird vor der sprachlichen Interaktion die gemeinsame Aufmerksamkeit auf ein Objekt gerichtet (joint attantion), wird hinterher über den Erfolg der Interaktion informiert (feedback), gibt es eine Rollenverteilung Lehrer/Schüler oder sind beide gleichberechtigt und wollen durch das Sprachspiel lernen, wie stark ist die Interaktion im Lehrer/Schüler-Fall? Selbstverständlich spielt auch die Umwelt, in der die Spiele stattfinden, eine wichtige Rolle, da sie die Sensorwerte der Agenten entscheidend beeinflussen.
In den im folgenden beschriebenen Experimenten, die in Arbeitsgruppen um Luc Steels an der Freien Universität Brüssel sowie im SONY Informatiklabor Paris durchgeführt wurden, sollten auch der Einfluß dieser Parameter auf die Güte des entstandenen Symbolsystems, sowie weitere für die Entstehung von Bedeutung notwendige Faktoren untersucht werden.


2. Die Experimente

2.1. Talking Heads

Ziel des Experiments ist es, die Möglichkeit der Entwicklung eines gemeinsamen Lexikons in einer Population autonomer Agenten von Grund auf und die Entstehung von Bedeutung von Worten zu untersuchen.
Beim Körper eines Agenten handelt es sich um eine horizontal und vertikal schwenkbare Kamera. Davon sind je zwei vor einer weißen Tafel montiert. Diese stellt die Umwelt dar, in der die Sprachspiele stattfinden. Die Datenverarbeitung findet in einem Rechner statt, der mit der Kamera verbunden ist. Es existieren mehrere solcher Versuchsaufbauten, die über Internet miteinander in Verbindung stehen. Ein Agent selbst ist eine Software, die sich in eine Kamera laden und dann mit dem zweiten Agenten in dieser Umwelt interagieren kann. Auf den Tafeln befinden sich mehrere geometrische Objekte verschiedener Farbe, die den Kontext darstellen.
In einem Sprachspiel fungiert ein Agent als Sprecher, der andere als Zuhörer. Gespielt werden Ratespiele, die folgendermaßen ablaufen: Der Sprecher wählt ein Objekt im Kontext aus und sucht alle ihm bekannten Konzepte, die dieses Objekt eindeutig identifizieren. Er wählt dann die Benennung des Konzepts, die in vergangenen Spielen am erfolgreichsten war, und übermittelt sie dem Hörer. Dieser ermittelt alle Konzepte, die er mit dieser Benennung in Verbindung setzt, und überprüft, welche davon, angewandt auf das von ihm wahrgenommene Bild, ein Objekt eindeutig bestimmen. Er wählt eines aus und zeigt darauf, indem er dessen Position an der Tafel dem Sprecher mitteilt. Das ist mit sehr großer Genauigkeit möglich, da die Kameras ja fest installiert sind und sich Positionsangaben gut umrechnen lassen. Je nach Erfolg des Spiels, d.h. ob beide Agenten dasselbe Objekt meinten, wird die interne Wissensstruktur angepaßt. Das kann auch schon in früheren Phasen des Spiels nötig sein, wenn z.B. der Sprecher noch kein Konzept besitzt, das ein Objekt eindeutig identifiziert, oder der Hörer das Wort noch nicht kennt, das ihm übertragen wird. Identifiziert der Zuhörer das falsche Objekt, zeigt der Sprecher auf das von ihm gewählte, damit ersterer eine sinnvolle Korrektur vornehmen kann.
Die Architektur eines Agenten beinhaltet zwei wesentliche Komponenten: ein Modul zur Konzeptualisierung, das für die Einordnung von Objekten der realen Welt in Klassen und das Identifizieren von Objekten in einem Bild anhand einer vorgegebenen Klasse, d.h. dem Aufbau einer Ontologie, zuständig ist, und ein Modul, das für Wortbildung und -erkennung, d.h. Benennung einer Klasse und Rekonstruktion einer Bedeutung anhand eines empfangenen Wortes, also der Erstellung eines Lexikons, verantwortlich ist. Dabei ist die Ontologie als Menge von Entscheidungsbäumen organisiert. Jeder unterteilt dabei eine Sensordimension. Bei diesem Experiment wären das die einzelnen RGB-Farbwerte, ein Gesamtgrauwert, die horizontale und vertikale Position, wobei jeder Knoten eine Kategorie darstellt. Das Lexikon enthält Paare von Wort und Kategorie zusammen mit einem Gewichtungsfaktor, der den Erfolg dieses Paares in Sprachspielen angibt. Diese Gewichte werden nach jedem Sprachspiel angepaßt. Gewinnerassoziationen wurden gestärkt, Verlierer geschwächt. In dieser Architektur spiegelt sich das Konzept des semantischen Dreiecks wider und wird zu einer semantischen Landschaft erweitert (Abbildung 2).
Wichtig ist, daß Agenten anfangs über keinerlei Konzepte oder Lexikoneinträge verfügen. Diese müssen sich im Laufe der Spiele erst entwickeln. Konzepte werden durch Aufspaltung eines Knotens im Entscheidungsbaum erweitert, wobei nicht benötigte Teilbäume auch wieder gelöscht werden können. Das Lexikon kann durch Erfinden neuer Wörter, Adaption gehörter Wörter oder Erweiterung um neue Assoziationen modifiziert werden. Die Dynamik der Spiele bedingt eine simultane Herausbildung von Ontologie und Lexikon, wobei sich die Entwicklung der beiden gegenseitig beeinflußt.
Das Experiment lief über 4 Monate. Insgesamt wurden etwa 400 000 Sprachspiele gespielt, wobei insgesamt 1500 Agenten involviert waren, die 500 Konzepte fanden. Der Gesamtwortschatz betrug 8000 Worte mit 200 Basisworten. Menschen konnten auf das Experiment Einfluß nehmen, indem sie neue Agenten schufen oder ihnen Wörter beibrachten. Die Programmierung der Agenten verlangt von ihnen, erfolgreich zu kommunizieren, also bei Mißerfolg Ontologie und Lexikon so zu modifizieren, daß sie in zukünftigen Sprachspielen besser abschneiden.
Ein wichtiges Ergebnis des Experiments ist, daß sich unter dieser Voraussetzung Kohärenz der Lexika herausbildet. Natürlichsprachliche Phänomene wie Synonymie und Polysemie4 treten auf, aber auch selbstorganisatorische Tendenzen, diese abzuschwächen. Eine anfänglich geringe Zahl von Agenten und wenig komplexe Kontexte begünstigen die Entwicklung eines erfolgreich nutzbaren gemeinsamen Wortschatzes.

2.2. Lampenwelt

Im Gegensatz zu den Talking Heads werden hier wirklich mobile Roboter eingesetzt, die sich in ihrer Umgebung bewegen. Das stellt eine wesentliche Erschwerung der Bedingungen dar, da das Erreichen eines gemeinsamen Fokus auf ein Objekt durch Zeigen wesentlich komplizierter ist und in diesem Experiment auch nicht gelöst, sondern durch einen Trick5 umgangen wurde. Die Population ist auf zwei Agenten eingeschränkt, die, wie im obigen Experiment, ein gemeinsames Lexikon über ihre Umwelt aufbauen sollen. Auch hier ist kein Teil des Lexikons und keine Ontologie vorprogrammiert. Zudem beschränken sich die Untersuchungen nicht auf ein Ratespiel mit feedback, sondern es wird systematisch der Einfluß von joint attention, feedback und anderer Parameter auf die Güte der für die Kommunikation zur Verfügung stehenden Symbolsysteme untersucht.
Die Umwelt besteht aus vier Lampen, die in unterschiedlicher Höhe aufgestellt sind. Die Roboter besitzen vier lichtempfindliche Sensoren in korrespondierenden Höhen. Bei einer 360°-Rotation6 nimmt jeder der beiden durch regelmäßiges Abtasten (alle 40ms) der Sensoren einen Satz Daten auf. Aus diesen wird Rauschen entfernt, indem Werte unter einem bestimmten Pegel gelöscht werden. Die so erhaltenen Daten werden in Segmente aufgeteilt, welche wiederum durch einen normalisierten Featurevektor repräsentiert werden. Der Satz Vektoren, die als Ergebnis einer Rotation gewonnen werden, bilden den Kontext. Eine Situation besteht aus den zwei Kontexten der beiden Roboter nach einer "gemeinsamen" Rotation. Zuerst wurde eine Reihe von Situationen mit verschiedenen Positionen der Roboter und Lampen aufgezeichnet, dann wurden die Sprachspiele auf dem Rechner simuliert. Das erlaubt die Wiederverwendung der Daten für mehrere Versuchsreihen, bei denen Parameter modifiziert werden können. Die komplette Ausführung des Experiments auf den Robotern ist aber prinzipiell möglich, wenn auch technisch und zeitlich sehr aufwendig.
Die Kategorien werden hier nicht durch Entscheidungsbäume gebildet, sondern durch Regionen in einem vierdimensionalen Sensorraum. Davon existieren mehrere von verschiedener Auflösung, um eine Einordnung nach generellen oder speziellen Unterschieden zu erlauben. Jede Region wiederum ist durch einen Vektor repräsentiert. Die Auswahl der Kategorien erfolgt nach dem Nächster-Nachbar-Algorithmus.
Der Ablauf der Sprachspiele entspricht grob dem bei den Talking Heads. Der Sprecher wählt ein Segment, sucht eine den entsprechenden Featurevektor bestimmende Kategorie, die die anderen im Kontext vorkommenden Segmente nicht enthält, und übermittelt das Wort mit dem höchsten Gewicht, das mit ihr assoziiert wird. Der Hörer sucht eine so benannte Kategorie, die nur ein Segment enthält. Bezeichnen die beiden Segmente dieselbe Lampe, war das Sprachspiel erfolgreich.
Eines der Ergebnisse ist, daß der Erfolg der Kommunikation am höchsten ist, wenn joint attention besteht, was nicht weiter verwunderlich ist, da das Objekt, das benannt werden sollte, schon vorher bekannt war, und die Kommunikation eigentlich redundant ist. In diesem Fall macht ein anschließendes feedback keinen großen Unterschied mehr, was aber in komplexeren Umgebungen, in denen Mehrdeutigkeiten häufiger vorkommen, anders sein kann. Steht das Wissen dem Hörer allerdings nicht zur Verfügung, stellt feedback eine wichtige Informationsquelle dar. Eine interessante Erkenntnis ist, daß die Spezifität eines Wortes (die Genauigkeit, mit der es ein Objekt von anderen abgrenzt) bei joint attention geringer ist, als wenn nur feedback gegeben wird. Im letzteren Fall muß das Wort viel mehr Information tragen, damit die Kommunikation Erfolg hat.

2.3. AIBO's erste Worte

In den beiden eben beschriebenen Experimenten waren die Agenten bis auf ihr Wissen homogen, d.h. sie verfügten über ähnliche Sensomotorik und konnten in den Sprachspielen, in denen es um die Erfindung einer neuen Sprache ging, dieselben Rollen einnehmen. Insbesondere letzteres trifft aber auf jemanden, der eine schon existierende Sprache lernt, nicht zu. Da ist die Rollenverteilung Lernender/Vermittler relativ fest. Der Ansatz eines eher sozial geprägten Lernens und der Einfluß des Vermittlers wird in diesem Experiment beleuchtet. Es geht damit auf die Frage ein, wie Kinder Sprache und Konzepte erlernen.
Der Lernende ist eine Variante des von SONY vermarkteten Roboterhundes AIBO. Seine Aufgabe ist es, drei Objekte in einer natürlichen Umwelt richtig zu klassifizieren. Dabei werden ihm keine idealisierten Paare Bild/Sprache gegeben, sondern der Lernprozeß findet in sozialer Interaktion mit einem (in diesem Fall menschlichen) Vermittler statt. Dessen Aufgabe ist es, die Situation und damit die Komplexität einzuschränken, den Lernenden zu ermuntern und pragmatisches feedback zu geben. Der Lernende seinerseits versucht, die Intention des Vermittlers zu erraten. Er kann dabei aktiv Hypothesen testen und ist nicht auf passives Lernen der gegebenen Beispiele eingeschränkt.
Drei verschiedene Interaktionsstufen wurden untersucht: starke Interaktion, überwachtes und nicht überwachtes Lernen. Im ersten Fall ermahnt der Vermittler den Roboter zur Aufmerksamkeit ("Schau!", "Höre!")7 auf ein Objekt und nennt den Namen, der Roboter wiederholt ihn, um zu überprüfen, ob er richtig verstanden hat. Im zweiten bewegt sich der Roboter frei im Raum. Wenn der Vermittler meint, er betrachte ein bestimmtes Objekt, nennt er dessen Namen. Dabei ist allerdings nicht gesichert, daß sich der Roboter wirklich noch auf das entsprechende Objekt konzentriert hat. Im letzten Fall erhält er eine Reihe von Bildern und führt einen Clusteringalgorithmus aus.
Die Klassifikation erfolgt nicht durch Objektsegmentierung, da diese zu rechenintensiv wäre und prinzipiell das Wissen voraussetzt, daß sich ein Objekt, zu dem man eine Schablone besitzt, im Bild befindet, wovon nicht ausgegangen werden kann. Statt dessen werden Beispiele abgespeichert. Ein Bild wird normalisiert und dann ein Zweifarbenhistogramm gespeichert. Um ein neues Bild einzuordnen, wird dann der Nächster-Nachbar-Algorithmus verwendet. Da die so gewonnenen Beispiele in hohem Maße kontextabhängig sind, und das Objekt nicht einmal einen entscheidenden Einfluß nehmen muß, kann der Sinn dieser Vorgehensweise angezweifelt werden. Allerdings erlaubt sie ein äußerst schnelles Lernen. Zudem gibt es keine strenge Trennung zwischen Lern- und Gebrauchsphase.
Die Treffergenauigkeit bei starker Interaktion ist erwartungsgemäß am höchsten, da der starke Einfluß des Vermittlers eine hohe Güte der Beispiele sichert. Nimmt dieser Einfluß ab, werden die Daten unsicherer, und es verschlechtert sich auch die Klassifikationsleistung. Ist der Roboter ganz auf sich allein gestellt und muß durch Clustering die Bilder selbständig in drei Gruppen einteilen, findet er nicht die "natürlichen" Kategorien, da wohl der Einfluß des Hintergrundes größer ist, als der des Objekts. Das unterstreicht den Einfluß der Sprache auf die Konzeptbildung.
Steigt allerdings die Anzahl der Objekte, die zu klassifizieren sind, und damit die Anzahl der dafür notwendigen Beispiele, erweist sich das beispielbasierte Lernen als immer weniger geeignet, da eine sehr große Anzahl von Vergleichen durchgeführt werden muß, die in Echtzeitbedingungen nicht mehr möglich ist. Damit ist dieser Ansatz wirklich nur für das Erlernen der ersten Worte geeignet, danach muß eine Methode der Abstraktion dazukommen, um eine korrekte Klassifikation in einer komplexeren Umwelt mit mehr Objekten zu erlauben.

2.4. Zusammenfassender Vergleich

Die ersten beiden Experimente untersuchten die Entstehung und Entwicklung eines gemeinsamen Lexikons, das eine Kommunikation über Objekte in der gemeinsamen Umwelt ermöglichte, in einer Population autonomer Agenten. Es wurde gezeigt, daß das damit verbundene Symbolverankerungsproblem durch dynamische Anpassung der Wissensstruktur im Laufe einer Reihe von Sprachspielen gelöst werden kann. Gewisse Bedingungen müssen dafür allerdings erfüllt sein. Es wurde aber darauf geachtet, daß diese auch in einer natürlichen Umwelt erfüllt sind, damit die Experimente Erklärungspotential für die Entwicklung natürlicher Sprache haben.
Vordefinierte Konzepte müssen und sollen die Agenten im Vorfeld nicht haben, wohl aber die Fähigkeit der Konzeptualisierung. In den Experimenten wurden ähnliche Sensorik und Konzeptstrukturen vorausgesetzt. Um ein kohärentes Lexikon zu erhalten, müssen die Agenten den Willen haben zu kooperieren, was durch ein gemeinsames Protokoll für die Sprachspiele gesichert wurde. Wie solche in einer natürlichen Umgebung selbst entstehen, ist nicht Gegenstand der Untersuchung. Die Agenten müssen über nonverbale Verständigungsmöglichkeiten verfügen, um joint attention oder feedback zu ermöglichen, die wesentlich zum Erfolg beitragen. Sie müssen über eine verläßliche Art verfügen, Äußerungen anderer zu verstehen und zu imitieren. Es wurde bewußt auf eine zentrale Steuerung und auf die Forderung einer totalen Kohärenz verzichtet, da diese unrealistisch sind.
Im Unterschied dazu untersuchte das dritte Experiment, das den Aspekt eines sozial geprägten Lernens beleuchtet, den Einfluß eines Vermittlers auf einen eine schon vorhandene Sprache Lernenden, der also gezwungen ist, die bereits verankerten Konzepte, die hinter ihren Worten stecken, mitzulernen. Dieser Einfluß ist in gewissem Sinne auch im ersten Experiment erkennbar. Es stellte sich nämlich heraus, daß die Population anfangs nicht zu groß sein sollte, um eine ausreichende Anzahl von Begegnungen in Sprachspielen zu garantieren und daß zudem eine ausreichende Stabilität, d.h. möglichst wenig Fluktuation, in der Gruppe erforderlich ist. Bei zu starker Fluktuation bricht das Lexikon zusammen, da die Agenten nicht genug Zeit haben, die Konventionen zu lernen. Wenn außerdem "alte erfahrene" Agenten zu früh gehen, geht Wissen über Konventionen verloren. Dieses sozusagen kulturell schon verankerte Wissen, über das erfahrene Agenten verfügen, fungiert wie ein Vermittler. Es wird beim Zusammentreffen mit neu zur Population hinzugekommenen Agenten weitergegeben. Dies ist ein weiteres Indiz für den Einfluß sozialer Interaktion auf das Sprach- und Konzeptlernen.
Ein Ergebnis, das bei allen Experimenten deutlich wird, ist, daß eine zumindest anfangs relativ stabile Umgebung eine erfolgreiche Manifestierung von Wort/Bedeutung begünstigt. Sind die Agenten nur mit komplexen Umgebungen konfrontiert, entstehen instabile Konzepte, die in einem instabilen Lexikon resultieren.
Während in den ersten beiden Experimenten die Welt relativ eingeschränkt war, indem die Objekte, über die gesprochen werden sollte, auf einfache Weise auf der weißen Tafel zu identifizieren bzw. die Sensoren genau an sie angepaßt waren, die Konzeptbildung jedoch nach einem relativ breit anwendbaren Prinzip vorgenommen wurde, verlief das dritte in einer natürlichen Umwelt, in der Objekterkennung alles andere als trivial ist, mit einem nicht beliebig skalierbaren beispielbasierten Konzeptbildungsprinzip.
Die Experimente liefern auch Erklärungsansätze für natürlichsprachliche Phänomene wie Polysemie und Synonymie. In vielen Fällen existiert keine 1:1-Beziehung zwischen Wort und Bedeutung oder Objekt. Polysemie bezeichnet den Fall, daß einem Wort mehrere Bedeutungen zugeordnet werden oder es verschiedene Objekte bezeichnet. Will man diese vermeiden, muß man jede Bedeutung anders benennen, was damit einhergeht, daß ein Objekt viele Namen hat. Je kleiner also die Polysemie, desto mehr Synonyme existieren. Je mehr Synonyme es gibt, desto schwieriger kann sich aber die Kommunikation gestalten. Allerdings kann dann die Spezifität der einzelnen Worte um so höher sein. Zu Synonymie kann es außerdem kommen, wenn die Agenten mit einer hohen Wahrscheinlichkeit neue Worte erfinden, wenn sie eine Kategorie nicht benennen können, für die andere Agenten aber schon Namen haben. Welche der konkurrierenden Benennungen sich dann durchsetzt, entscheidet die Dynamik in der Population. Eventuell wandelt sich schließlich die Bedeutung von unterlegenen Worten. Den besten Kompromiß zwischen den Extrema zu finden, wird nur unter Berücksichtigung von Zielvorgaben der Anwendung möglich sein.
In keinem der Experimente wurde Wissen über mentale Prozesse der jeweils anderen Agenten eingebracht, wie es für komplexere Sprachspiele nötig sein könnte.


3. Weiterführende Fragen

Die Experimente haben gezeigt, daß sich ein gemeinsames Lexikon entwickeln kann, mit dem die Agenten in der Lage sind, in einem gemeinsamen Kontext befindliche Objekte erfolgreich zu benennen. Das macht aber nur einen geringen Teil dessen aus, was durch Sprache möglich ist, und wofür sie nötig ist. Es ist fraglich, ob Beziehungen zwischen verschiedenen Objekten und Kategorien, Verhaltensweisen von Objekten, d.h. auch Aspekte der Zeit, verallgemeinerte Eigenschaften, zusammengesetzte Kategorien usw. in den verwendeten Strukturen repräsentierbar sind. Was in den Experimenten als Ontologie bezeichnet wird, entspricht nämlich nur einem Bruchteil dessen, was der Begriff sonst bezeichnet. Für noch realistischere Untersuchungen von natürlicher Sprache wird es zudem nötig sein, Handlungen und deren Wirkung auf Objekte in die Konzeptbildung und die Sprache einzubringen.
Ein wichtiger weiterer Schritt wird sein, Kommunikation über nicht im Kontext befindliche Objekte zu ermöglichen. Wenn es darum geht, über Pläne zu reden oder gemeinsame Ziele zu konkretisieren, ist das unumgänglich. Zudem sind viele Begriffe, die in natürlicher Sprache vorkommen, nicht als reale Objekte greifbar.
Eine entscheidende Frage ist, ob Agenten in der Lage sind zu erkennen, daß unterschiedliche Bedeutungen eventuell identische Objekte bezeichnen, und somit eine Beziehung zwischen den Bedeutungen herstellen können.
Insgesamt ist die Repräsentation von Kategorien zu überdenken. Binäre Entscheidungsbäume, einzelne Regionen im Sensorraum oder Histogramme scheinen wenig realistisch. Vielmehr sollten sich die vielen Erfahrungen, die ein Agent bezüglich einer Kategorie macht, zu einem Gesamtbild zusammensetzen. Eine Verbesserungsmöglichkeit für das AIBO-Experiment wäre, dem Zentrum des Bildes ein höheres Gewicht zu geben, was dem scharfen Sehzentrum entsprechen würde und zumindest im Falle der starken Interaktion eine weitere Verbesserung bringen könnte.
Es stellt sich die Frage, ob eine so erzeugte Sprache ein geeignetes Mittel zur Kommunikation zwischen autonomen Agenten ist. Wenn deren Sensomotorik prinzipiell homogen ist, kann es sinnvoller sein, Featurevektoren, d.h. interne Repräsentationen, auszutauschen, da sie ein zuverlässigeres Abbild darstellen, als Worte. Spannend ist die Frage, ob sich ein kohärentes Lexikon auch entwickeln kann, wenn die Agenten nicht über ähnliche Sensoren oder Konzeptbildungsmodule verfügen.
Ein Einsatz von in den Experimenten verwendeten Ansätze in der Mensch-Maschine-Kommunikation ist vorstellbar. Insbesondere betrifft das natürlichsprachlich gesteuerte, den Menschen bei bestimmten Tätigkeiten unterstützende Systeme.
Nur in den allerfrühsten Stadien besteht Sprache aus Einwortäußerungen, die bald nicht mehr ausreichen und durch grammatische Strukturen erweitert werden. Bei den Talking Heads wurden zwar auch Mehrwortäußerungen untersucht, darauf wurde hier aber aufgrund der Knappheit der Ausführungen in der zur Verfügung stehenden Literatur nicht eingegangen. Es ist festzuhalten, daß die Untersuchung dieser Strukturen einen wichtigen Bestandteil der auf diesem Gebiet gemachten Forschung bilden muß, denn die Bedeutung, die hinter ihnen steht, ist mehr als die Summe der Bedeutungen der Einzelwörter. Auch hier spielen Beziehungen zwischen Objekten auf verschiedenen Abstraktionsstufen eine wichtige Rolle.
Es wird nötig sein, in der Zukunft weitere Experimente in Realweltumgebungen mit Robotern, die in höherem Maße mobil sind, durchzuführen, um zu überprüfen, ob ähnliche Erfolge unter schwierigeren Bedingungen zu erreichen sind. Dabei wird aufgrund der erhöhten Komplexität der Ausgangsdaten eventuell auf neuere Algorithmen zur Mustererkennung usw. zurückzugreifen sein, die in den hier besprochenen Experimenten nicht zum Einsatz gekommen sind. Die Beachtung von Echtzeitanforderungen wird hierbei eine der wichtige Stellung einnehmen.
Die Experimente stellen einen wichtigen Schritt zu einer möglichen Modellierung der Entwicklung von natürlicher Sprache dar. Sie belegen, daß das Symbolverankerungsproblem durch selbstorganisatorische Prozesse in einer Population von Agenten gelöst werden kann. Das erlaubt ihnen, Objekte in ihrer Umwelt mit gemeinsamen Namen zu benennen. Weitere Schritte müssen jedoch noch gemacht werden, um eine sinnvolle Kommunikation zu erlauben. Sicher ist aber auch, daß es kein einfacher Weg sein wird.


Fußnoten

1 In der Literatur existieren keine eindeutigen Bezeichnungen für die Eckpunkte des semantischen Dreiecks. Ich verwende hier die Begriffe Objekt, Bedeutung und Wort, weil sie mir intuitiv verständlich erscheinen.

2 An dieser Stelle sei auf die verschiedenen Bedeutungen des Wortes "Symbol" in "Symbolverarbeitungssystem" und "Symbolverankerungsproblem" hingewiesen. Ersteres bezieht sich auf die regelbasierte Manipulation von Zeichenketten über einem Alphabet, letzteres auf die Herstellung der Beziehung zwischen jenen Zeichenketten und Objekten der realen Welt.

3 Weitere Ausprägungen von Sprachspielen, die in Untersuchungen genutzt wurden, sind Folge-Mir-Spiele, in denen es darum geht, Aktionen zu benennen, Imitationsspiele, in denen Geräusche nachgeahmt werden und die damit der Untersuchung der Phonetik dienen, sowie Sprachspiele, die auf die Entstehung von Grammatik abzielen.

4 Im zusammenfassenden Vergleich werden dazu noch nähere Erläuterungen gegeben.

5 Anstatt auf physikalischem Weg auf das Objekt zu deuten, wird dem anderen Agenten der Featurevektor geschickt, der das Objekt in im aktuellen Kontext repräsentiert. Dieser kann ihn dann mit seinen im Kontext vorhandenen Vektoren vergleichen und so den wahrscheinlichsten auswählen. Diese Fähigkeit entspricht in etwa dem Lesen von Gedanken.

6 Um sicherzustellen, daß wirklich eine volle Drehung ausgeführt wird, richten sich die Roboter gegenseitig mit Hilfe von Infrarotlampen und -sensoren aus. Dann dreht sich zuerst der eine, bis er die Ausgangsstellung erreicht hat, dann der andere. Das bedeutet aber auch, daß sich die aufgenommenen Sensordaten der Umwelt nicht beliebig unterscheiden, da die Roboter räumlich doch relativ nahe beieinander sind, was in echten Anwendungen nicht gegeben sein muß. Andererseits kommt es infolge der einfachen Sensomotorik zu Verzerrungen in den Daten - keine gleichmäßige Rotationsgeschwindigkeit, keine hundertprozentige Sensorgenauigkeit.

7 Im Gegensatz zu den anderen Experimenten erfolgt die Kommunikation hier durch akustische Signale. Dabei kommt die zum AIBO gehörige Spracherkennungssoftware zum Einsatz. Um die Fehlerrate zu verringern, wird allerdings nicht das interne Mikrofon des Roboters sondern ein externes benutzt.


Abbildungen:

1. semantisches Dreieck



2. semantische Landschaft



3. der grundsätzliche Aufbau eines Sprachspiels (Ratespiel) und seine Beziehung zum semantischen Dreieck



Bibliographie:

Steels, Luc: The puzzle of language evolution. In: Kognitionswissenschaft (2000) 8:143-150.
steels00.pdf

Steels, Luc; Kaplan, Frederic: AIBO's first words. The social learning of language and meaning
steels-evocomm2002.pdf

Steels, Luc; Kaplan, Frederic: Bootstrapping Grounded Word Semantics.
ground.pdf

Steels, Luc; Kaplan, Frederic: Collective learning and semiotic dynamics.
ecal99.pdf

Steels, Luc; Kaplan, Frederic; e.a.: Crucial factors in origins of word-meaning.
_actes67.html

Vogt, Paul: Lexicon Grounding on Mobile Robots.
thesis.html

Zlatev, Jordan; Kopp, Lars: Epigenetic Robotics: A Program for Investigations in Situated Embodied Language and Cognition.
EpigeneticRobotics

nach Hause
Kommentare bitte an alex(at)nittka.de
letzte Aktualisierung: 25.08.2008