Perzeptron von Rosenblatt als eine lernfähige Maschine

4 min read

Perzeptron von Rosenblatt

Perzeptron ist ein neuronales Netzwerk, das als ein Algorithmus zur Erfüllung der Aufgaben einer binären Klassifizierung dargestellt werden kann. Es stellt fest, ob ein Objekt einer bestimmten Kategorie zugeordnet ist oder nicht (beispielsweise ob das Tier auf dem Bild  eine Katze ist oder nicht).

Ein paar Worte zur Geschichte von Perzeptron. Bei der Erforschung der neuronalen Netzwerke und der künstlichen Intelligenz kam dem Perzeptron eine besondere Rolle zu: Die Anfangsillusionen über seine Wirksamkeit verursachten die Entstehung der sogenannten Widerlegung von Minsky-Papert und den jahrzehntelangen Stillstand in der Forschung der künstlichen neuronalen Netzwerke. In den 2000er Jahren wurden viele Arbeiten vom englischen Informatiker Geoffrey Hinton veröffentlicht, dessen Ergebnisse zu positiven Veränderungen in allen Bereichen des maschinellen Lernens führten.

Frank Rosenblatt

Frank Rosenblatt als Gründer des Perzeptrons betrachtete und popularisierte es als ein Gerät und nicht als einen Algorithmus. Zuerst wurde das Perzeptron der Welt als Hardware bekannt. Am Anfang seiner Karriere studierte und unterrichtete Rosenblatt Psychologie an der Cornell Universität. Vom Büro für Meeresforschung in USA bekam er die Finanzierung mit der Aufgabe, eine lernfähige Maschine zu entwickeln. Seine Maschine wurde „Mark I“ genannt und sah so aus:

Unter Perzeptron versteht man einen linearen Klassifikator, d.h. ein Algorithmus, der ein Objekt durch Trennung von zwei Kategorien einer geraden Linie klassifiziert. Das Objekt ist in der Regel eine Vektorfunktion x mit dem Gewicht w und der Verschiebung um b: y = w * x + b.

Am Ausgang bekommt man von Perzeptron das Ergebnis y. Es basiert auf einigen bedeutenden Eingabeobjekten durch die Bildung einer linearen Kombination mit Verwendung von Gewichtungskoeffizienten. Manchmal ist das nachfolgende Durchlassen des Ergebnisses durch eine nichtlineare Aktivierungsfunktion erforderlich. Mathematisch sieht es so aus:

dabei ist w der Vektor von Gewichtungskoeffizienten, x der Vektor von Eingangsobjekten, b die Verschiebung, φ die nichtlineare Aktivierungsfunktion.

Der Verdienst von Rosenblatt besteht darin, dass er ein einlagiges Perzeptron entwickelte. Dies bedeutet, dass sein Hardwarealgorithmus nicht mehrere Schichten enthält, die das Modellieren der Hierarchie von Merkmalen von neuronalen Netzwerken ermöglichen. Es handelte sich um ein kleines neuronales Netzwerk, das den Perzeptron daran hinderte, eine nichtlineare Klassifizierung durchzuführen, beispielsweise den Wert der XOR-Funktion zu berechnen (der Tigger des XOR-Operators ist die Nichtübereinstimmung von zwei Objekten, andere Bezeichnungen dafür sind Kontravalenz und ausschließendes Oder). Dies wurde von Minsky und Papert in ihrem Buch bewiesen.

Mehrlagiges Perzeptron

Dank der weiteren Forschung von mehrschichtigen Perzeptrons wurde gezeigt, dass sie imstande sind, sowohl den XOR-Operator als auch viele andere nichtlineare Funktionen zu approximieren.

Bekanntlich  verwendete Rosenblatt das 1943 erarbeitete McCulloch-Pitts-Neuron als Grundlage für sein Perzeptron. Genauso sind die Perzeptrons selbst die Baugruppen, die nur bei so großen Funktionen wie mehrlagige Perzeptrons nützlich sein können.

Das mehrlagige Perzeptron ist ein guter Ausgangspunkt und wesentlicher Bestandteil beim Erlernen des tiefen Lernens.

Das mehrlagige Perzeptron ist ein tiefes künstliches neuronales Netzwerk, das  mehrere Perzeptrons enthält. Das mehrlagige Perzeptron besteht aus folgenden drei Schichten:

  • einer Eingabeschicht, die das Signal empfängt,
  • einer Ausgabeschicht zum Treffen einer Entscheidung oder Erstellen einer Vorhersage über ein Eingabeobjekt,
  • zahlreichen verborgenen Schichten, die zwischen der Eingabe- und Ausgabeschicht liegen und ein echter rechnerischer Läufer sind.

Mehrlagige Perzeptrons mit einer verborgenen Schicht können eine beliebige kontinuierliche Funktion approximieren.

Arbeitsweise eines Perzeptrons

Perzeptrons werden oft zur Lösung der kontrollierten Lernprobleme verwendet: Sie trainieren an einem Satz von Paaren von Eingabe- / Ausgabe-Objekten und lernen, Korrelationen (d. h. Abhängigkeiten) zwischen diesen Daten zu modellieren. Das Training schließt das Einstellen von Modellparametern (Gewichtskoeffizienten, Verschiebungen) ein, um Fehler zu minimieren. Zum Korrigieren dieser Parameter in Bezug auf die Fehler wird der Backpropagation-Algorithmus verwendet, und der Fehler selbst wird auf verschiedene Weise berechnet, einschließlich durch Berechnung des mittleren quadratischen Fehlers (RMSE / root-mean-square error).

Feedforward-Netzwerke wie mehrlagiges Perzeptron sind dem Tennis oder Ping-Pong ähnlich. In der Regel bestehen sie aus zwei Arten von Bewegungen: vorwärts und rückwärts. Es ist eine Art Ping-Pong-Spiel zwischen Vermutungen und Antworten: Jede Vermutung ist eine Prüfung unseres Wissens und jede Antwort ist eine Rückmeldung, wie sehr wir uns irren.

Beim Schritt vorwärts läuft der Signalfluss von der Eingabeschicht durch die verborgene zur Ausgabeschicht durch, dabei wird die Entscheidung, die in der Ausgabeschicht erhalten wird, mit der apriorisch bekannten richtigen Antwort verglichen.

Beim Schritt zurück bei der Verwendung der Kettenregel durch das Perzeptron breiten sich partielle Ableitungen der Funktion, Fehler in Gewichtskoeffizienten und Verschiebungen in der Rückrichtung aus. Diese Kettenregel ermittelt den Fehlergradienten, mit dem die Parameter des Modells angepasst werden können, da sie das mehrlagige Perzeptron dem Fehlerminimalwert einen Schritt näher bringen. Um dieses Ziel zu erreichen, werden verschiedene Algorithmen der Gradientenoptimierung verwendet, zum Beispiel der Verfahren des stochastischen Gradientenabstiegs. Das Netzwerk spielt solange Ping-Pong, bis der Fehler verschwindet. In diesem Fall kommt die so genannte Konvergenz vor.

Verbesserung des Perzeptrons

Es ist zu betonen, dass die Software und Hardware im Programmablaufplan vorhanden sind: Man kann die Software entweder als Hardware oder umgekehrt darstellen. Wenn Mikrochips programmiert werden (wie FPGA) oder integrierte Schaltkreise (wie ISIC) entworfen werden, indem ein bestimmter Algorithmus in Silizium ausgeätzt wird, wird die Software auf einer Ebene darunter zur Erhöhung der Geschwindigkeit durchgeführt. Genauso kann das, was in Silizium ausgeätzt wird oder mit Lampen und Potentiometern (zum Beispiel Mark I von Rosenblatt) verbunden ist, auch als Kode dargestellt werden. Dies gibt Alan Kay den Grund zu sagen: „Fachleute, die sich wirklich ernsthaft mit Software beschäftigen, sollten ihre eigene Hardware entwickeln.“ Kostenlosen Käse gibt es aber nur in der Mausefalle: Wenn man durch das Ausätzen von Algorithmen an Geschwindigkeit gewinnt, verliert man in Möglichkeit ihrer Modifizierung. Im Bereich des maschinellen Lernens ist dies ein echtes Problem, wenn sich die Algorithmen während der Datenverarbeitung spontan ändern. Die Aufgabe besteht darin, diejenigen Teile des Algorithmus zu finden, die sogar bei der Veränderung von Parametern stabil bleiben, beispielsweise werden die Operationen mit linearer Algebra heutzutage von der GPU am schnellsten verarbeitet.

Weitere Forschungen auf diesem Gebiet können zum Bedürfnis der Entwicklung immer komplizierter und nützlicherer Algorithmen führen. Man bewegt sich von einem Neuron zur Gesamtheit von mehreren Neuronen, die eine Schicht genannt wird. Dann geht man von einer Schicht zur Gesamtheit von mehreren Schichten, die mehrlagiges Perzeptron genannt wird. Kann man sich von einem MP zu mehreren bewegen? Oder werden die Schichten einfach weiter aufgehäuft, wie dies Microsoft mit ResNet, seinem Leader von ImageNet, gemacht hat, wo mehr als 150 Schichten existieren? Oder lohnt es sich, die Kombination aus dem MP, dem Ensemble vieler Algorithmen zu verwenden, die in einer Art Computerdemokratie für die beste Vorhersage stimmen? Oder ist es im Grunde nur die Einbettung eines Algorithmus in einen anderen, wie dies bei faltenden Graphennetzwerken der Fall ist?

Wenn Sie mehr über das Perzeptron von Rosenblatt erfahren möchten, so können Sie sich an das Team von AI-United.de per Mail oder Q&A wenden.

Quelle

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.