Wie kann ein völlig neues neuronales Netzwerkdesign große Herausforderungen in der KI überwinden?

5 min read

Forscher standen vor der Aufgabe, die Kernmechanismen des tiefen Lernens, die das Modellieren der kontinuierlichen Prozesse wie beispielswiese Veränderungen in der Gesundheit ermöglichen sollte, umzugestalten. Als Grundlage dafür nahmen sie Gleichungen aus dem Kalkül.

Völlig neues neuronales Netzwerkdesign

David Duvenaud war an einem Projekt beteiligt, das der Bearbeitung medizinischer Daten gewidmet war, als er einen großen KI-Mangel feststellte.

David Duvenaud erforschte künstliche Intelligenz an der Universität von Toronto und beschäftigte sich mit dem Entwickeln eines Modells des tiefen Lernens, das die Gesundheit eines Patienten im Laufe der Zeit vorhersagen sollte. Stimmen Sie nicht zu, dass die Daten unserer Krankenakten oft etwas chaotisch sind: Während unseres ganzen Lebens besuchen wir Ärzte aus verschiedenen Gründen und zu verschiedenen Zeitpunkten. Dies führt zu oberflächigen Kenntnissen der Messungen in beliebigen Zeitintervallen. Ein traditionelles neuronales Netzwerk quält sich dies zu bewältigen, da sein Design das Netzwerk zwingt, auf Basis der Daten mit klaren Beobachtungsphasen zu lernen. Dieses Werkzeug ist also schlecht, um kontinuierliche Prozesse zu modellieren, insbesondere wenn es sich um Prozesse handelt, die im Laufe der Zeit unregelmäßig gemessen werden.

Diese Herausforderung gab Duvenaud und seinen Kollegen an der Universität und dem Vector Institut für KI eine Anregung, neuronale Netzwerke, wie wir sie kennen, umzugestalten. Am Ende vorigen Jahres hielten sie einen Vortrag auf der Konferenz der Neural Information Processing Systems, die einer der größten KI-Veranstaltungen der Welt ist. Ihr Vortrag gehörte zu den vier besten dieser Konferenz.

Neuronale Netze sind die Kernmachanismen, deren Aufgabe es ist, tiefes Lernen so leistungsfähig zu machen. Wie bekannt enthält ein traditionelles neuronales Netz gestapelte Schichten einfacher Rechenknoten. Ihre Zusammenarbeit besteht im Finden der Muster in Daten. Die Einzelschichten dagegen erschweren das effektive Modellieren kontinuierlicher Prozesse.

In seinen Forschungen geht das Team von David Duvenaud weiter: Sein Design löscht die Schichten vollständig. Duvenaud merkte schnell, dass sie nicht die ersten waren, die auf diese Idee gekommen sind. Ihr Verdienst besteht jedoch darin, dass sie sie auf verallgemeinerte Weise zum ersten Mal implementierten. Möchten Sie verstehen, wie dies überhaupt möglich ist? Dann lassen Sie uns untersuchen, was die Schichten in erster Linie tun.

Der üblichste Trainingsprozess eines neuronalen Netzwerks ist überwachtes Lernen, das die Sättigung des Netzwerks mit einer Reihe von markierten Daten bedeutet. Stellen Sie sich folgendes Beispiel vor: Sie haben vor, ein System zum Erkennen verschiedener Tiere zu erstellen. Sie würden ein neuronales Netzwerk mit Tierbildern sättigen, die mit entsprechenden Tiernamen paarweise zusammengestellt sind. Im Hintergrund beginnt es, die Teile eines verrückten mathematischen Puzzles zusammenzusetzen. Nachdem es alle Bild-Namen-Paare betrachtet hat, berechnet es eine Formel, die ein Teil (ein Bild) zuverlässig in einen anderen (die Kategorie) umwandelt. Wenn das Netzwerk dieses Puzzle einmal gelöst hat, kann die Formel immer wieder verwendet und jedes neue Tierbild richtig kategorisiert werden – und so fast die ganze Zeit.

Ein traditionelles neuronales Netz verwandelt ein Bild eines Löwen in den Namen “Löwe”.

Wenn wir nach einer einzigen Formel, die ganze Bild-zu-Name-Transformation beschreibt, suchen, sind wir auf dem falschen Weg. Wir würden dann ein Modell bekommen, das geringe Genauigkeit hat. Gibt es beispielsweise eine einzige Regel, mit der Sie Katzen von Hunden unterscheiden können? Sie könnten sagen, dass Hunde Schlappohren haben. Aber nicht alle Hunde denn auch manche Katzen haben sie, also kommen Sie am Ende zu vielen falschen und positiven Ergebnissen.

Hier treten Schichten eines neuronalen Netzes auf den Plan. Ihre Aufgabe besteht darin, den Umwandlungsprozess in Schritte zu unterteilen und dem Netzwerk zu ermöglichen, eine Reihe von Formeln zu finden, die jeweils eine Prozessphase beschreiben. Betrachten wir alle Schichten im Detail. Die erste Schicht nimmt alle Pixel auf und verwendet eine Formel, um festzustellen, welche für Katzen im Vergleich zu Hunden am wichtigsten sind. Die zweite Schicht verwendet eine andere, um folgende Aufgaben zu erfüllen: Erstellen größer Muster aus Pixelgruppen und Herausfinden, ob auf dem Bild Schnurrhaare oder Ohren sind. Jede nachfolgende Schicht identifiziert Merkmale des Tieres, die immer komplexer werden, bis die letzte Schicht “Hund” entscheidet, indem sie alle angesammelten Berechnungen beachtet. Diese schrittweise Aufgliederung des Prozesses erlaubt einem neuronalen Netz, ausgefeiltere Modelle zu erstellen. Dies sollte wiederum zu genaueren Vorhersagen führen.

Trotz guter Leistungen des Schichtenansatzes im Bereich der KI hat er gewisse Nachteile. Wird etwas modelliert, was im Laufe der Zeit kontinuierlich umgewandelt wird, muss dies auch in einzelne Schritte unterteilt werden. Kehren wir zu unserem Gesundheitsbeispiel zurück. Der Schichtenansatz würde in diesem Fall Ihre Krankenakten in endlichen Zeitperioden wie Jahren oder Monaten zusammenfassen. Sie konnten feststellen, wie dies ungenau wäre. Wenn Sie Ihren Arzt am 20. Februar und noch einmal am 5. Dezember besuchten, würden die Daten beider Besuche in demselben Jahr zusammengefasst.

Gibt es Verfahren, die Realität so nah wie möglich modellieren können? Das beste Verfahren besteht darin, dass weitere Schichten dem Netzwerk hinzugefügt werden und dadurch die Granularität erhöht wird. (Warum schlüsseln Sie nicht Ihre Notizen in Tage oder sogar Stunden auf? Wenn Sie dies machen würden, könnten Sie zweimal an einem Tag den Arzt besuchen!) Im Extremfall würde dies bedeuten, dass das beste neuronale Netzwerk für diese Aufgabe eine unendliche große Anzahl von Schichten haben würde, um unendlich kleine Schrittänderungen zu modellieren. Die Frage ist, ob diese Idee überhaupt praktikabel ist?

Wahrscheinlich kommt Ihnen dies schon bekannt vor. Es ist dadurch zu erklären, dass Sie jetzt genau beim Problem sind, zu dessen Lösung ein Kalkül erfunden wurde. Er stellt Ihnen all diese schönen Gleichungen zur Verfügung, dank derer Sie eine Reihe von Änderungen in unendlich kleinen Schritten berechnen können. Anders gesagt, Sie vergessen den Albtraum, in dem Sie kontinuierliche Änderung in diskreten Einheiten modellieren. Die Magie der Forschungsarbeit von Duvenaud und seinen Mitarbeitern besteht darin, dass Schichten durch Kalkülgleichungen ersetzt werden.

Duvenaud kommt zum Ergebnis, das dies wirklich nicht einmal ein Netzwerk ist, da es keine Knoten und Verbindungen mehr gibt. Es handelt sich um nur eine kontinuierliche Berechnungsplatte. Dennoch halten sich Forscher an die Konvention und benannten dieses Design ein “ODE-Netz”: ODE steht für „ordinary differential equations“ (gewöhnliche Differentialgleichungen).

Ihr Schädel brummt – dies ist eine gute Analogie, mit Hilfe derer Duvenaud alle Teile zusammen verbindet. Stellen Sie sich zuerst ein kontinuierliches Musikinstrument wie eine Violine vor! Sie gleiten Ihre Hand entlang der Saite und spielen jede gewünschte Frequenz. Stellen Sie sich nun ein diskretes Instrument wie ein Klavier vor! Sie verfügen über eine bestimmte Anzahl von Tasten und können nur eine begrenzte Anzahl von Frequenzen spielen. Ein traditionelles neuronales Netzwerk ähnelt einem Klavier: Selbst wenn Sie sich große Mühen geben, sind Sie unfähig über die Saiten zu gleiten. Sie können dies nur annähernd tun, indem Sie mit einer Tonleiter spielen. Selbst wenn es Ihnen gelungen war, Ihr Klavier so zu stimmen, dass die Tonfrequenzen sehr nahe beieinander liegen, würde sich Ihr Spiel trotzdem nur dem einer Tonleiter ähneln. Schalten Sie auf ein ODE-Netzwerk um, dann ist es so als würde Ihr Klavier zu einer Violine. Gewiss ist es nicht immer das richtige Tool, es ist eher für bestimmte Aufgaben geeignet.

Wir haben gesehen, dass ein ODE-Netz kontinuierliche Veränderungen modellieren kann. Darüber hinaus kann es auch bestimmte Trainingsaspekte verändern. Wenn Sie in einem traditionellen neuronalen Netz arbeiten, so geben Sie am Anfang des Trainings eine gewünschte Anzahl der Schichten an und warten dann bis zum Trainingsende, um festzustellen, wie genau das Modell ist. Diese neue Methode erlaubt Ihnen, zuerst die gewünschte Genauigkeit anzugeben, und sucht dann nach effizientesten Wegen, innerhalb dieser Fehlergrenze zu trainieren. Andererseits wissen Sie von Anfang an, wie viel Zeit ein traditionelles neuronales Netz braucht, um zu trainieren. Nicht so viel, wenn Sie ein ODE-Netz verwenden. Laut Duvenaud müssen die Forscher diese Kompromisse finden, wenn sie sich für eine bestimmte Technik entscheiden, die in der Zukunft einsetzt wird.

Zur Zeit wird in der Arbeit nur ein Proof-of-Concept für das Design dargestellt, Duvenaud  behauptet aber, dass „es für die Prime Time noch nicht fertig ist“. Jede Anfangstechnologie, die in diesem Bereich der KI vorgeschlagen wird, muss auf jeden Fall weiterentwickelt, geprüft und verbessert werden, bis sie produziert werden kann. Dies betrifft auch die von Duvenaud vorgeschlagene Methode, die das Potenzial hat, das Gebiet aufzurütteln – so wie es Ian Goodfellow mit seinem über GANs veröffentlichten Artikel tat.

Unseren Artikel möchten wir mit dem Zitat von Richard Zemel, Forschungsdirektor am Vector Institut für künstliche Intelligenz, der aber an der Forschung nicht teilgenommen hat, enden: “Viele der wichtigsten Fortschritte auf dem Gebiet des maschinellen Lernens haben schon den Bereich neuronaler Netzwerke erreicht. Wahrscheinlich wird diese Forschung eine ganze Reihe weiterer Arbeiten anstoßen. Dies betrifft besonders Zeitreihenmodellen, die für KI-Anwendungen wie Gesundheitswesen grundlegend sind.”

Möchten Sie mehr über ein völlig neues neuronales Netzwerkdesign, seine Besonderheiten, Vor- und Nachteile erfahren, so können Sie sich an das Team von AI-United.de per Mail oder Q&A wenden.

Quelle

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.