AI-United » Allgemein » Hochdimensionale Räume beim maschinellen Lernen

Hochdimensionale Räume beim maschinellen Lernen

Hochdimensionale Räume beim maschinellen Lernen

Eines der charakteristischen Merkmale des maschinellen Lernens ist die Bearbeitung von riesigen Datenmengen aus verschiedenen Domänen. Je nach dem Szenario werden diese Daten als Bild, Video, Text, Sprache oder rein numerisch bearbeitet. Ungeachtet dessen existieren sie meistens in einem hochdimensionalen Raum. Das Ziel dieses Artikels ist es, die Darstellung der Daten in höheren Dimensionen und die Möglichkeiten der Interpolation zwischen ihnen zu untersuchen. Leider ist es fast unmöglich, diese abstrakten Räume zu visualisieren. Deshalb bieten wir in diesem Artikel einige hilfreiche Analogien, um darüber weiter nachdenken zu können.

Raumkoordinaten als Bilder

Man kann jedem Punkt im dreidimensionalen Raum eine der drei Koordinaten (x, y, z) zuordnen. Diese Punkte werden als drei reelle Zahlen dargestellt, wodurch man behaupten kann, dass sie ein Bestandteil des Raums ℝ³ sind. Obwohl diese Koordinaten meist nicht sehr signifikant sind, sind sie trotzdem fähig, wichtige Begriffe der Entfernung und der Größe zu kodieren.

Es sollte darauf hingewiesen werden, dass man beim Vorhandensein von drei reellwertigen Zahlen sie im dreidimensionalen Raum darstellen könnte. Stellen wir uns ein Bild vor. Ein Bild kann einfach als eine große Sammlung von Pixeln betrachtet werden, wobei jedes Pixel zur Darstellung der Intensität in einem bestimmten Feld dient. Zur Vereinfachung kann man sich Graustufenbilder ansehen, bei denen die Intensität jedes Pixels zwischen 0 und 1 liegt.

Ein Bild mit niedriger Auflösung kann ein Miniaturbild mit 32×32 Pixeln sein. Typischerweise wird es visuell in Form eines Quadrats dargestellt, trotzdem kann man sich vorstellen, wie es in eine Linie mit 1024=32×32 Pixeln ausgedehnt wird. Was soll dies dann? In welchem Raum befindet sich dann dieses Bild? Da man jetzt 1024 reelle Zahlen hat, ist es also im 1024-dimensionalen Raum ℝ¹⁰²⁴.

Verstehen der hochdimensionalen Räume

Gewissermaßen gibt es bereits eine Möglichkeit, einen 1024-dimensionalen Raum zu visualisieren: 32×32-Graustufenbilder! Obwohl dies etwas kreisförmig aussehen kann, ist es für einige Fälle geeignet. Die Pixelintensität im Bild ändert sich, indem man sich durch den hochdimensionalen Raum bewegt. Die meisten dieser Änderungen werden jedoch nicht wie etwas Sinnvolles, sondern sehr häufig wie Nonsens aussehen.

Als Menschen können wir Bilder interpretieren und interpolieren. Um beispielsweise ein Bild von einer Katze auf von einem Hund zu ändern, sollten beide Bilder visualisiert und die wichtigsten Unterschiede hervorgehoben werden. Wenn man aber den Raum aller Bilder im menschlichen Gehirn untersuchen würde, so könnte man feststellen, dass sich Hunde- und Katzenbilder sehr eng beieinander befinden. Man kennt die Zusammenhänge zwischen Bildern und wie ähnliche Bilder nah zusammengebracht und unähnliche weit voneinander entfernt werden. Wenn man aber ein Bild in einem hochdimensionalen Raum untersucht, so stellt man fest, dass es gemischt ist und sich in der Umgebung von geräuschvollem, bedeutungslosem Unsinn befindet.

Pixelräume und latente Räume

Die oben beschriebenen hochdimensionalen Darstellungen werden häufig auch Umgebungsräume (oder Pixelräume im Beispiel mit Bildern) genannt. Auf diese Weise können lange Listen von Zahlen als Vektoren in hochdimensionalen euklidischen Räumen bezeichnet werden.Als bekannteste Beispiel für Nachdenken über einfache Bilder kann man handgeschriebene Ziffern anführen. Es handelt sich um 28×28-Graustufenbilder. Dabei gehört jedes Bild zu ℝ⁷⁸⁴. Um sich von einem Bild zu einem anderen zu bewegen, ist es notwendig, die Semantik jeder Ziffer zu verstehen.

Darstellung der Interpolation zwischen Ziffern im Pixelraum.

Interpolation zwischen Koordinaten im Pixelraum

Es gibt beispielsweise zwei Koordinaten p und q. Die Interpolation zwischen ihnen im Pixelraum kann durch das schrittweise Ändern jeder Koordinate von der ersten zur zweiten erfolgen. Um von der Koordinate (1, 2) zu (5, 12) in zwei Schritten zu wechseln, soll die Progression (1, 2) → (3, 7) → (5, 12) berücksichtigt werden. Jeder Schritt besteht darin, dass einfach die Hälfte der Differenz zwischen den Koordinaten addiert wird.

Es sollte darauf hingewiesen werden, dass dieser Algorithmus für eine beliebige Menge der Koordinaten funktioniert. Dies bedeutet, dass er auch für unsere handgeschriebenen Ziffernbilder geeignet ist. Im obigen Bild wird es mit einem Bild von „5“ angefangen und mit einem Bild von „9“ beendet. Die obige Progression stellt die Interpolation zwischen ihnen in vier Schritten dar.

Interpolation im latenten Raum

Obwohl ein Bild durch seine Pixel dargestellt werden kann, können Bilder auch mit Hilfe ihrer semantischen Darstellung eingegliedert werden. Da man weiß, wie die Ziffer 5 und 9 aussehen, es ist leicht vorstellbar, alle ähnlichen Ziffern zusammen zu gruppieren. Dieser Raum kann völlig anders sein und nur wenige Dimensionen benötigen. Dies dient als Basis für viele Methoden zur Dimensionsreduzierung.

Die Aufgabe vieler Modelle des maschinellen Lernens ist es, diesen latenten Raum zu erlernen.

Nachdem die Darstellung des latenten Raums gelernt worden ist, entsteht die Möglichkeit, im latenten Raum zu interpolieren und einen viel reibungsloseren Übergang zwischen Bildern zu bekommen. Man kann sich davon überzeugen, indem man sich zwei oberen Bilder ansieht. In der nachfolgenden Abbildung ist die Interpolation im latenten Raum dargestellt.

Darstellung der Interpolation zwischen zwei gleichen Ziffern im latenten Raum.

Zusammenfassung

Beim maschinellen Lernen handelt es sich oft darum, wie hochdimensionale Räume interpretiert werden. Das Wissen, wie diese Räume angewendet und umwandelt werden, zählt zu wertvollen Fähigkeiten, ungeachtet davon, dass es nicht visualisiert werden kann. Wie bekannt besteht die Schwierigkeit des maschinellen Lernens in der Entwicklung und dem Verstehen von Modellen, mit deren Hilfe Daten auf niedrig dimensionale latente Räume reduziert werden. Deshalb ist das Untersuchen dieser Repräsentationen von großer Bedeutung.

Sollten Sie Fragen zur Bedeutung hochdimensionaler Räume beim maschinellen Lernen haben, so können Sie sich an das Team von AI-United.de per Mail oder Q&A wenden.

Quelle

AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.