Konstruktion eines formalen Modells: Beispiele

Für die logische Darstellung benutzen McCulloch und Pitts den logischen Apparat, wie er in der Logischen Syntax von Rudolf Carnap dargestellt wird, allerdings nicht die deutsche Ausgabe von 1934 [36] -die wir hier benutzen (vgl. Anhang. Logische Syntax)-, sondern die englische Ausgabe von 1938 [38]. Ferner greifen McCulloch und Pitts auch noch zurück auf die Principia Mathematica (PM) von Russel und Whitehead in der 2.Aufl. von 1927 [230] (vgl. Anhang: Logik der PM). McCulloch und Pitts beziehen sich in der logischen Syntax ausdrücklich auf die Sprache II (Language II), die eine einfache Typentheorie beinhaltet. Wie eine weitere Analyse dann zeigt, lassen sich die Strukturen, die McCulloch und Pitts mit Hilfe der logischen Syntax von Carnap beschreiben, als nichtdeterministische endliche Automaten mit partiellem Gedächtnis rekonstruieren. Dies stellt eine Annäherung an die Turingmaschine dar. Damit ist die Ausführbarkeit auf einem Computer gewährleistet. Offen ist allerdings die Frage, wo genau innerhalb der Chomsky-Hierarchie diese Arten von Automaten anzusiedeln wären. Aufgrund der strukturellen Eigenschaften spricht vieles dafür, dass es mindestens Stufe 1 ist, wenn nicht gar direkt Stufe 0 (Beweis folgt).

Figure 4.4: Theorie von McCulloch und Pitts äquivalent zu nichtdeterministischen endlichen Automaten mit partiellem Gedächtnis
\includegraphics[width=4.5in]{wiss_theorie_rahmen_3.eps}

Es werden zunächst die Beispiele von McCulloch und Pitts (siehe [170]:Pp.130f) analysiert. Anschliessend werden die allgemeineren Strukturen diskutiert. Ein Problem mit diesen Beispielen ist, dass der Schwellwert $\theta$ nicht explizit aufgeführt wird; dadurch kann man die Formeln nicht kontrollieren. Man muss vielmehr den jeweiligen Schwellwert $\theta$ indirekt aus der logischen Beschreibung erschliessen.

Das erste Beispiel besteht aus zwei Neuronen $N_{1}$ und $N_{2}$. Der Ausgang von $N_{1}$ spaltet sich in zwei excitatorische Endstücke, die auf Neuron $N_{2}$ treffen, das keine inhibitorische Synapse besitzt und einen Schwellwert $\theta = 2$. Die nachfolgenden Diagramme (vgl. 4.5, 4.6, 4.7) sind mittels der OKSIMO-Software [203] erstellt worden. Die Diagramme zeigen zunächst die beiden einzenen Neuronen $N_{1}$ und $N_{2}$, und dann das kleine Netzwerk bestehend aus beiden Neuronen.

Figure 4.5: MCP-Neuron $N_{1}$ mit 1 excit. Eingang und Schwellwert 1
\includegraphics[width=2.5in]{mcp_e1t1.eps}

Figure 4.6: MCP-Neuron $N_{2}$ mit 2 excit. Eingängen und Schwellwert 2
\includegraphics[width=2.5in]{mcp_e2t2.eps}

Figure 4.7: MCP-Network als Bsp.1a aus Artikel MCP von 1943
\includegraphics[width=2.5in]{mcp43_bspa.eps}

In der Schreibweise der Theorie von McCulloch und Pitts (mit unseren Aktualisierungen) soll dies so aussehen:


$\displaystyle N_{2}(t) = N_{1}(t-1)$     (4.1)

Das zweite Beispiel besteht aus drei Neuronen $N_{1}$, $N_{2}$ und $N_{3}$. Die Ausgänge der beiden Neuronen $N_{1}$, $N_{2}$ spalten sich jeweils in zwei excitatorische Endstücke, die auf Neuron $N_{3}$ treffen, das keine inhibitorische Synapse besitzt und einen Schwellwert $\theta = 2$. Die nachfolgenden Diagramme (vgl. 4.8, 4.9) sind wieder mittels der OKSIMO-Software [203] erstellt worden.

Figure 4.8: MCP-Neuron $N_{2}$ mit 4 excit. Eingängen und Schwellwert 2
\includegraphics[width=2.5in]{mcp_e4t2.eps}

Figure 4.9: MCP-Network als Bsp.1b aus Artikel MCP von 1943
\includegraphics[width=2.5in]{mcp43_bspb.eps}

In der Schreibweise der Theorie von McCulloch und Pitts (mit unseren Aktualisierungen) soll dies so aussehen:


$\displaystyle N_{3}(t) = N_{1}(t-1) \vee N_{2}(t-1)$     (4.2)

Das dritte Beispiel (1c) besteht auch aus drei Neuronen $N_{1}$, $N_{2}$ und $N_{3}$, allerdings spalten sich die Ausgänge der beiden Neuronen $N_{1}$, $N_{2}$ nicht auf. Wegen des Schwellwertes $\theta = 2$ wirkt das Neuron $N_{3}$ , das keine inhibitorische Synapse besitzt wie ein UND-Gatter. Das nachfolgende Diagramm (vgl. 4.10) zeigt das kleine Netzwerk.

Figure 4.10: MCP-Network als Bsp.1c aus Artikel MCP von 1943
\includegraphics[width=2.5in]{mcp43_bspc.eps}

In der Schreibweise der Theorie von McCulloch und Pitts (mit unseren Aktualisierungen) soll dies so aussehen:


$\displaystyle N_{3}(t) = N_{1}(t-1) \wedge N_{2}(t-1)$     (4.3)

Das vierte Beispiel (1d) besteht auch aus drei Neuronen $N_{1}$, $N_{2}$ und $N_{3}$, von denen Neuron $N_{2}$ inhibierend wirkt. Wegen des Schwellwertes $\theta = 2$ kann daher das Neuron $N_{3}$ blockiert werden. Die nachfolgenden Diagramme zeigen die neuen Konstellationen (vgl. 4.11 , 4.12).

Figure 4.11: MCP-Neuron $N_{2}$ mit 2 excitatorischen und 1 inhibitorischem Eingang und Schwellwert 2
\includegraphics[width=4.5in]{mcp_e2i1t2.eps}

Figure 4.12: MCP-Network als Bsp.1d aus Artikel MCP von 1943
\includegraphics[width=2.5in]{mcp43_bspd.eps}

In der Schreibweise der Theorie von McCulloch und Pitts (mit unseren Aktualisierungen) soll dies so aussehen:


$\displaystyle N_{3}(t) = N_{1}(t-1) \wedge \neg N_{2}(t-1)$     (4.4)

Das fünfte Beispiel (1e) (vgl. Bild 4.13) beinhaltet einen Konflikt, der im Text von McCulloch und Pitts nicht explizit diskutiert wird.

Figure 4.13: MCP-Network als Bsp.1e aus Artikel MCP von 1943
\includegraphics[width=4.5in]{mcp43_bspe_extra.eps}

McCulloch und Pitts geben dazu die folgende Formalisierung:


$\displaystyle N_{3}(t) = N_{1}(t-1) \vee ( \neg N_{2}(t-3) \wedge \neg N_{2}(t-2) )$     (4.5)
$\displaystyle N_{4}(t) = N_{2}(t-2) \wedge N_{2}(t-1))$     (4.6)

Diese Formulierungen sind auf den ersten Blick nicht verständlich, da die Neuronen $N_{a}, N_{b}$ aus dem konkreten Modell in der formalen Darstellung nicht vorkommen. Dies kann man nachholen:


$\displaystyle N_{a}(t) = N_{2}(t-1)$     (4.7)
$\displaystyle N_{4}(t) = N_{2}(t-1) \wedge N_{a}(t-1)$     (4.8)
$\displaystyle N_{4}(t) = N_{2}(t-1) \wedge N_{2}(t-2)$     (4.9)

Man definiert $N_{a}$ in Abhängigkeit von $N_{2}$, definiert dann $N_{4}$ in Abhängigkeit von $N_{2}$ und $N_{a}$ und ersetzt dann $N_{a}$ durch $N_{2}$. Dann bekommt man die Formulierung $N_{4}(t) = N_{2}(t-2) \wedge N_{2}(t-1))$, in der $N_{4}(t) $ zum Zeitpunkt $t$ abhängig ist von $N_{2}$ sowohl zum Zeitpunkt $(t-1)$ wie auch zum Zeitpunkt $(t-2)$.

Hier stellt sich die grundsätzliche Frage nach dem Wahrheitswert der beiden Aussagen $N_{2}(t-1) , N_{2}(t-2)$. Nach der Syntax der Sprache L1 bzw. L2 von Carnap gilt, dass $t-1 \ne t-2$, dass heisst es sind zwei unterschiedliche Bezeichnungen; im konkreten Fall sollen sie zwei unterschiedliche Zeitpunkte bezeichnen. Es stellt sich die Frage, ob ein Neuron $c_{2}$ zu unterschiedlichen Zeitpunkten $t-1, t-2$ unterschiedliche Aktivitäten $N_{2}$ haben kann. Da die Einführung von unterschiedlichen Zeitpunkten nur Sinn macht, wenn damit auch unterschiedliche Bedeutungen -sprich. Wahrheitswerte- transportiert werden können, muss man diese Frage wohl bejahen. Dies heisst, es könnte gelten $N_{2}(t-1) = 1$ und $N_{2}(t-2) = 0$. Allgemeiner:

t $N_{2}$ $N_{a}$ $N_{4}$
1 1 0 0
2 1 1 0
3 0 1 1
4 0 0 0

Für den Fall $N_{b}$ bekommen wir:


$\displaystyle N_{b}(t) = N_{a}(t-1) \wedge \neg N_{2}(t-1)$     (4.10)
$\displaystyle N_{a}(t) = N_{2}(t-1)$     (4.11)

Mit Einsetzung von $N_{2}$ für $N_{a}$ und gleichzeitiger Erhöhung des Zeitindex bekommt man dann:


$\displaystyle N_{b}(t) = N_{2}(t-2) \wedge \neg N_{2}(t-1)$     (4.12)

Von hieraus kann man dann das komplete Netzwerk bestimmen:


$\displaystyle N_{3}(t) = N_{1}(t-1) \vee N_{b}(t-1)$     (4.13)
$\displaystyle N_{3}(t) = N_{1}(t-1) \vee ( N_{2}(t-3) \wedge \neg N_{2}(t-2))$     (4.14)

Diese Formeln erwecken den Eindruck, als ob man das Verhalten der Endneuronen in Abhängigkeit von den Eingangsneuronen auch unabhängig von den Zwischenneuronen (Interneuronen, verborgenen Neuronen) ausdrücken könnte. Als Endergebnis bekommt man formal:


$\displaystyle N_{3}(t) = N_{1}(t-1) \vee ( N_{2}(t-3) \wedge \neg N_{2}(t-2))$     (4.15)
$\displaystyle N_{4}(t) = N_{2}(t-1) \wedge N_{2}(t-2)$     (4.16)

Doch bei dem Versuch, diese Formeln mit Hilfe eines konkreten Modells zu interpretieren, ergeben sich Schwierigkeiten. Würde man die Interneuronen eliminieren, dann würden sich die Pfade im Netz verkürzen und die zuvor unterstellten Zeitpunkte sind nicht mehr darstellbar. Im Fall von $N_{4}(t) = N_{2}(t-1) \wedge N_{2}(t-2)$ werden 3 Zeitpunkte vorausgesetzt, nach Elimination von $c_{a}$ gibt es aber nur noch zwei Zeitpunkte: $t$ und $t-1$. Man weiss also nicht, wie man diese Formel dann interpretieren sollte. Desgleichen für die Formel $N_{3}(t) = N_{1}(t-1) \vee ( N_{2}(t-3) \wedge \neg N_{2}(t-2))$. In dieser Formel werden 4 Zeitpunkte vorausgesetzt; nach der Eliminierung von $c_{a}, c_{b}$ gibt es aber nur noch zwei Zeitpunkte. Die Autoren geben für diese Unklarheit keine Erklärung.

Da die Eliminierung von Interneuronen bei Beibehaltung der Zeitpunkte zu Interpretationsproblemen führt, wird hier vorläufig angenommen, dass eine Darstellung der logischen Abhängigkeiten offensichtlich Sinn macht, dass aber die Auswirkung der Zeitpunkte offensichtlich noch Klärungsbedürftig ist (hier macht sich das Fehlen einer expliziten Semantik bemerkbar!).

Versuchen wir daher, die Eliminierungen unberücksichtigt zu lassen, dann bekommen wir:


$\displaystyle N_{a}(t) = N_{2}(t-1)$     (4.17)
$\displaystyle N_{4}(t) = N_{2}(t-1) \wedge N_{a}(t-1)$     (4.18)
$\displaystyle N_{b}(t) = N_{a}(t-1) \wedge \neg N_{2}(t-1)$     (4.19)
$\displaystyle N_{3}(t) = N_{1}(t-1) \vee N_{b}(t-1)$     (4.20)

Schliesst man Eliminierung von Interneuronen wegen den Problemen mit der korrespondierenden Zeitstruktur vorläufig aus, dann gilt generell, dass die Aktivitäten entlang einem Pfad in einem Netz als zeitversetzt aufzufassen sind. Für die aktuelle Simulation der OKSIMO-Modelle gilt, dass die Eingangswerte eines Modells sich bis zur Berechnung der Ausgangswerte nicht ändern. M.a.W. die Aktivität von Neuron $c_{2}$ bleibt für die Dauer der längsten Pfadlänge gleich, d.h. wenn Neuron $c_{3}$ zum Zeitpunkt $t$ rechnet, dann gilt im aktuellen Berechnungsmodell von OKSIMO $N_{2}(t) = N_{2}(t-1) = N_{2}(t-2) = N_{2}(t-3)$, oder allgemeiner, sei $k$ der längste Berechnungspfad in einem OKSIMO-Modell, dann gilt, dass die Werte der Aktivitäten aller Eingangsneuronen für die Dauer von k Zeitpunkten konstant bleiben. Die logischen Abhängigkeiten bleiben zwar erhalten, aber die unterschiedlichen Positionen im Netz werden nicht als unterschiedliche Zeitpunkte gedeutet. Dies bedeutet für die bisherigen Beispiele:


$\displaystyle N_{a} \Leftarrow N_{2}$     (4.21)
$\displaystyle N_{4} \Leftarrow N_{2} \wedge N_{a}$     (4.22)
$\displaystyle N_{b} \Leftarrow N_{a} \wedge \neg N_{2}$     (4.23)
$\displaystyle N_{3} \Leftarrow N_{1} \vee N_{b}$     (4.24)

Es bleibt einem grösseren Beweis überlassen, zu klären, ob durch diese unterschiedliche operationalen Deutung der Formeln im OKSIMO-Simulationsprozess tatsächliche Unterschiede zum Formalismus von McCulloch und Pitts impliziert sind, und falls ja, welche. Dazu muss eine explizite Semantik sowohl für die logische Theorie von McCulloch und Pitts wie auch für OKSIMO definiert werden.

Das sechste Beispiel (1f) besteht auch aus vier Neuronen $N_{1}$, $N_{2}$, $N_{3}$ und $N_{4}$, von denen Neuron $N_{2}$ inhibierend wirkt. Wegen des Schwellwertes $\theta = 2$ kann daher das Neuron $N_{4}$ blockiert werden. Die nachfolgenden Diagramme zeigen die neuen Konstellationen (vgl. 4.14 , 4.15

Figure 4.14: MCP-Neuron mit 4 exzitatorischen und 1 inhibiorischem Eingang und Schwellwert = 2
\includegraphics[width=4.5in]{mcp_e4i1t2.eps}

Figure 4.15: MCP-Network als Bsp.1f aus Artikel MCP von 1943
\includegraphics[width=2.5in]{mcp43_bspf.eps}

McCulloch und Pitts geben dazu eine umständliche Formalisierung. Eine einfache Formalisierung wäre die folgende:


$\displaystyle N_{4}(t) = \neg N_{1}(t-1) \wedge (N_{2}(t-1) \vee N_{3}(t-1) )$     (4.25)

Zusammenfassend kann man sagen, dass man ein Netzwerk so auffassen kann, dass es Eingangsneuronen (E-Neuronen), Zwischen- oder Interneuronen (I-Neuronen) sowie Ausgangsneuronen (A-Neuronen) gibt. Das gesamte Netzwerk kann man dann als eine Funktion auffassen der Art


$\displaystyle \langle N_{o.1}, \cdots, N_{o.m}, t+1\rangle = f(\langle N_{ie.1}, \cdots, N_{ie.n}, N_{ii.1}, \cdots, N_{ii.r}\rangle, t )$     (4.26)

d.h. die I-Neuronen definieren eine Abbildung $f$, die die Werte der E-Neuronen zum Zeitpunkt $t$ auf die Werte der A-Neuronen zum Zeitpunkt $t+1$ abbildet. Hier gibt es zwei Fälle bei den Inputneuronen: im allgemeinen Fall gibt es externe Inputneuronen $N_{ie}$ und interne Inputneuronen $N_{ii}$. Bei den internen Inputneuronen handelt es sich um direkte Rückkoppelungen auf den Eingang. Dies impliziert folgenden speziellen Sachverhalt:

Figure 4.16: Gegenbeispiel für feste Zeitpunkte im Netz
\includegraphics[width=2.5in]{neuron_netz_gegenbeispiel_zeit.eps}

  1. Von den E-Neuronen bis zu den A-Neuronen kann es Verarbeitungspfade (VP) geben, deren Länge zwischen 0 und k Knoten schwanken kann (k wäre die maximale Länge).
  2. Wenn man annimmt, dass jeder Knoten ein Neuron $c_{i}$ ist, dessen Aktivität $N_{i}$ zeitlich hinter der Aktivität der Vorgänger ($predec(N_{i})$) anzusetzen ist, dann würde jedem Neuron entlang dem Pfad ein eigener Zeitpunkt entsprechen.
  3. Bei einer starren Zuordnung von Zeitpunkten zu Neuronen im Pfad ergäben sich aber Konflikte dann (vgl. Bild 4.16), wenn ein bestimmtes Neuron $c_{i}$ auf Pfaden unterschiedlicher Länge erreichbar wäre. Im Beispiel wären dies z.B. die Pfade $\langle N_{1}, N_{3}\rangle$ mit Länge k=2 und $\langle N_{1}, N_{2}, \cdots, N_{3}\rangle$ mit Länge k=3+x, wobei x die Anzahl der Wiederholungen über $N_{2}$ wären.
  4. Daraus kann man ersehen, dass man offensichtlich unterscheiden muss zwischen dem neuronalen Netz als Struktur der Maschine -heute z.B. als Zustandsgraph, der einen Automaten repräsentiert-, sowie dem tatsächlichen Arbeitsprozess dieser Struktur -heute Menge der Ausführungen oder Abarbeitungsbaum-. Daraus würde aber folgen, dass man aus der Struktur keine Folgerungen über tatsächliche Zeitverhältnisse ziehen kann und darf. Die Struktur hat nur eine logische Bedeutung.
  5. Für die Funktion $f(\langle N_{ie.1}, \cdots, N_{ie.n}, N_{ii.1}, \cdots, N_{ii.r}\rangle, t) = \langle N_{o.1}, \cdots, N_{o.m}, t+1\rangle$ bedeutet dies, dass die Zeit zwischen Eingabe bei $t$ und Ausgabe bei $t+1$ als interne Verarbeitungszeit aufzufassen ist, die auf das Intervall $t, t+1$ normiert werden muss. Die genauen Prozessabläufe sind in einem eigenen Prozessmodell (Semantik) zu klären.

Wir ziehen aus diesen Beobachtungen den Schluss, dass die Autoren McCulloch und Pitts offensichtlich diese wesentliche Unterscheidung zwischen logischer Struktur und Abarbeitung in der Zeit nicht gemacht haben. Damit sind alle ihre Formalisierungen mit Vorsicht zu geniessen. Vor diesem Hintergrund gewinnt die Bemerkung von Kleene 1956, dass jene Teile im Artikel von McCulloch und Pitts, der über Netze mit Zyklen handelt, 'obscure' seien [136]:P.4, eine konkretere Bedeutung.

Im Folgenden werden wir versuchen, die Unterscheidung von logischer Struktur (z.B. die Struktur eines Automaten) und Abarbeitung in der Zeit (z.B. das Verhalten eines Automaten) zu berücksichtigen, gleichzeitig aber auch prüfen, ob und wieweit man die Metatheorie von McCulloch und Pitts -evtl. modifiziert- weiter verwenden kann.

Gerd Doeben-Henisch 2010-12-16