Welt

Tolmans Lernumgebungen

In den Experimenten Tolmans besteht die 'Welt' aus mindestens zwei Lebensbereichen für die Versuchstiere: die eigentliche 'Lernumgebung $W_{L}$' in Gestalt eines 'Labyrinths' ('maze'), und einem davon getrennten Aufenthaltsort, einem Käfig, der nicht weiter beschrieben wird.

Die Lernumgebung $W_{L}$ ist strukturiert durch 'räumliche Einheiten' ('units'), die mindestens einen 'Eingang' bzw. 'Ausgang' haben. Alle Einheiten zusammen bilden eine übergeordnete 'Form', die einen speziellen Charakter annehmen kann ('T-Form', 'Y-Form', usw.). Von den 'Einheiten' unterschieden wird die 'Zielbox' ('goal box'), die 'Belohnung' z.B. in Form von 'Futter oder 'Wasser' enthalten kann, und die 'Startbox'. Eingänge bzw. Ausgänge können bewegliche Elemente wie 'Vorhänge' ('curtains') oder 'Türen' ('doors') enthalten.

Eine Einheit kann entweder einen 'Gang' darstellen, der allseitig umschlossen ist, bis auf die Decke, oder einen 'Graben' (mit oder ohne Wasser), der überwunden werden muss, oder eine allseitig offene 'Plattform'.

Es kann auch bewegliches Material in Form von Sägespänen oder Stroh geben, das im Raum verteilt werden kann.

Alle genannten Einheiten können diverse sensorisch relevante Eigenschaften besitzen wie 'Farben', 'Gerüche', 'Tastwerte', 'Geräusche' usw. Diese können entweder 'konstant' sein oder sich fallweise ändern. Es kann speziell auch elektrisch geladenes Material geben, das einen 'Stromschlag' auslösen kann, oder elektrische 'Lichter'.

Theoretische Rekonstruktion von Tolmans Lernumgebungen

Für die Theorie rekonstruieren wir zunächst nur die Lernumgebung $W_{L}$.

Wenn wir ausgehen von einer dreidimensionalen Koordinatenmenge $R^{3} \subseteq X \times Y \times Z$, dann bildet ein 'Labyrinth' $W_{L}$ darin eine Teilmenge $W_{L} \subseteq R^{3}$ mit einer 'begrenzten Grundfläche' $G^{2} = (X' \times Y')$, über die sich ein 'begrenztes Oberteil' $O^{3} = G^{2} \times Z'$ erhebt. Alle 'räumlichen Einheiten' $E^{3}_{i}$ sind dann Teilmengen von $O^{3}$, also $E^{3}_{i} \subseteq O^{3}$, wobei diese Einheiten sich nicht überschneiden $\bigcap(E^{3}_{i})=\emptyset$ und zugleich der gesamte Raum mit den räumlichen Einheiten vollständig aufgeteilt wird $O^{3} - \bigcup(E^{3}_{i})= \emptyset$. Jede räumliche Einheit $E^{3}_{i}$ besteht dann aus einer endlichen Menge von Koordinaten $X \times Y \times Z$ und jede Koordinate repräsentiert dann eine 'Position' $POS$ in der Welt $O^{3}$. Jede Position $p \in POS$ kann sich mit endlich vielen Eigenschaften $P' \subseteq P$ verknüpfen, also $p \times P'$.

Da ein lernendes System mit seinem 'Körper' $B_{S} \subseteq POS$ eine endliche Menge von Positionen in der Lernumgebung $W_{L}$ einnehmen kann, besteht ein 'lernrelevanter Zustand' $\tau \in ST$ sowohl aus dem Körper $B_{S}$ als auch aus all den Positionen (mit deren Eigenschaften), die auf die Sensoren des Körpers einwirken können oder umgekehrt aus jenen Positionen, auf die die Effektoren des Körpers durch Aktionen einwirken können. Sinnvollerweise nimmt man an, dass zwei verschiedene Systeme $S_{i}, S_{j}$ mit ihren Körpern nicht die gleichen Koordinaten in der Lernumgebung $W_{L}$ haben dürfen.

Eine Lernumgebung besteht somit mindestens aus den räumlichen Einheiten $O^{3}$ und darin - verteilt - aus Körpern $B$ von lernenden Systemen, also $W_{L}(w) \Longleftrightarrow w = \langle O_{3}, B, \epsilon, \iota\rangle$. Die Mengen können mit der 'Weltfunktion' $\epsilon$ verändert werden, also $\epsilon: O^{3} \times B \mapsto O^{3} \times B$. Ferner gehört zur Welt $W$ noch eine 'Interfacefunktion' $iota$ mit $\iota = inp \otimes out$. Die Teilfunktion 'Input' $inp: 2^{POS} \times B \mapsto SYS \times IN$ bildet ein Raumgebiet mit dem Körper eines Systems ab auf eine Reizmenge $ IN$, die der Körper dieses Systems verarbeiten kann, während die Teilfunktion 'Output' $out: 2^{POS} \times SYS \times OUT \mapsto 2^{POS} \times B$ den Output eines Systems auf ein Raumgebiet abbildet, in dem sich der Körper des Systems befindet.

Eine 'Aufgabe' $T \in TASK$ in der Welt besteht dann aus einer endlichen Menge von 'Zuständen' $ \tau$ der Art, dass ein Zustand ein Raumgebiet umfasst, das mindestens so groß ist wie ein Körper $B_{S}$, dazu alle jene Eigenschaften $P_{\tau}$, die für die Aufgabe $T$ relevant sind. Die Aufgabenzustände sind so angeordnet, dass die Aktionen eines lernenden Systems $OUT_{S}$ von einem Aufgabenzustand $ \tau$ zu einem möglichen Folgezustand $\tau^{'}$ führen kann.

Man würde dann sagen, eine Lernumgebung $W_{L}$ besteht minimal aus der Struktur $W_{L}(w) \Longleftrightarrow w = \langle TASK, O_{3}, B, \epsilon, \iota\rangle$.

Gerd Doeben-Henisch 2014-01-14