Lexikon – alle KI Begriffe erklärt

KI Lexikon

Aktivierungsfunktion – Wird verwendet, um eine nichtlineare Transformation der Eingabe zu erstellen. Die Eingaben werden mit Gewichten multipliziert und zu einem Neigungsausdruck addiert. Beliebte Aktivierungsfunktionen schließen ReLU, Tanh oder Sigmoid ein.

Adam-Optimierung – Kann anstelle von Optimierungsmethoden des stochastischen Gradientenabstiegs verwendet werden, um die Netzwerkgewichte iterativ anzupassen. Adam ist rechentechnisch effizient, arbeitet gut mit großen Datensätzen und erfordert nach Ansicht der Erfinder wenig Einstellung der Hyperparameter. Adam verwendet eine adaptive Lernrate α anstelle einer vordefinierten und festen Lernrate. Adam ist derzeit derStandard-Optimierungsalgorithmus in tiefen Lernmodellen.

Adaptiver Gradientenalgorithmus -AdaGrad ist ein Algorithmus zur Optimierung des Gradientenabstiegs, der für jeden Parameter eine einstellbare Lernrate bietet. AdaGrad passt die Parameter auf häufig aktualisierte Parameter in kleineren Schritten an als für weniger häufig aktualisierte Parameter. Es eignet sich daher gut für sehr spärlicheDatensätze, z. B. zur Anpassung von Worteinbettungen in Natural LanguageProcessing-Aufgaben.

Average Pooling – Ermittelt den Durchschnitt der Ergebnisse einer hochpräzisen Operation. Es wird häufig verwendet, um die Größe einer Eingabe zu verkleinern. Das durchschnittliche Pooling wurde hauptsächlich in älteren Architekturen von Convolutional Neural Networks verwendet, während neuste Architekturen maximales Pooling bevorzugen.

AlexNet – Eine beliebteCNN-Architektur mit acht Schichten. Es ist eine umfangreichereNetzwerkarchitektur als LeNet und die Schulung dauert länger. AlexNet gewann 2012 die Imageklassifikations Battle von ImageNet.

Backpropagation – Die allgemeine Rahmenstruktur zumAnpassen des Netzwerkgewichtes, um die Verlustfunktion eines neuronalen Netzwerks zu minimieren. Der Algorithmus läuft rückwärts durch das Netzwerk und passt die Gewichte durch eine Form des Gradientenverfahrens jeder Aktivierungsfunktion an. 
Die Backpropagation führt das Netzwerk zurück und passt die Gewichte an.

Batch Gradient Descent -Algorithmus zur Optimierung des Gradientenverfahrens. Führt Parameteraktualisierungen für den gesamten Trainingssatz durch. Der Algorithmus muss die Gradienten des gesamten Trainingssatzes berechnen, bevor ein Schritt der Parameteraktualisierung abgeschlossen wird. Daher kann der Batch-Gradient für große Trainingssätze sehr langsam sein.

Batch-Normalisierung – Normalisiert dieWerte in einer neuronalen Netzwerkschicht auf Werte zwischen 0 und 1. Dadurch wird das neuronale Netzwerk schneller trainiert.

Bias —Kommt vor, wenn dasModell im Trainingssatz keine hohe Genauigkeit erzielt. Es wird auch als Underfitting bezeichnet. Wenn ein Modell einen hohen Bias aufweist, ergibt das imAllgemeinen keine hohe Genauigkeit im Testsatz.

Klassifizierung – Wenn die Zielvariable zu einer bestimmten Klasse gehört, nicht zu einer kontinuierlichen Variable. Bildklassifizierung, Betrugserkennung oderVerarbeitung natürlicher Sprache sind Beispiele für tiefgehende Lernklassifizierungsaufgaben.

Convolution oder. Faltung – Eine mathematische Operation, die eine Eingabe mit einem Filtermultipliziert. Convolutions/Faltungen sind die Grundlage von ConvolutionalNeural Networks, die sich hervorragend für die Identifizierung von Kanten undObjekten in Bildern eignen.

Kostenfunktion – Definiert die Differenz zwischen der berechneten Ausgabe und der tatsächlichen Leistung. Kostenfunktionen sind eine der Schlüsselkomponenten für das Lernen in tiefen neuronalen Netzwerken, da sie die Grundlage für die Parameteraktualisierung bilden. Das Netzwerk vergleicht das Ergebnis seinerVorwärtsausbreitung mit der Grundwahrheit und passt die Netzwerkgewichte entsprechend an, um die Kostenfunktion zu minimieren. Der mittlere quadratischeFehler ist ein einfaches Beispiel für eine Kostenfunktion.

Deep Neural Network – Ein neuronales Netzwerk mit vielen verborgenen Schichten, normalerweise mehr als fünf. Es ist nicht definiert, wie viele Schichten ein tiefes neuronales Netzwerk mindestens haben muss. Deep Neural Networks sind eine leistungsfähige Form von Algorithmen für maschinelles Lernen, mit denen das Kreditrisiko ermittelt, selbstfahrende Autos gesteuert wird und neue Planeten im Universum entdeckt werden.

Derivat oder Ableitung – Das Derivat ist die Neigung einer Funktion an einem bestimmten Punkt.Derivate werden berechnet, damit der Gradientenabstiegsalgorithmus Gewichtsparameter in Richtung des lokalen Minimums anpassen kann.

Dropout – Eine Regularisierungstechnik, bei der Knoten und ihre Verbindungen in tiefen neuronalen Netzwerken zufällig entfernt werden. Dropout reduziert Overfitting und ermöglicht ein schnelleres Training tiefer neuronaler Netzwerke. Bei jedem Parameteraktualisierungszyklus werden verschiedene Knoten während des Trainings fallen gelassen. Dadurch werden benachbarte Knoten gezwungen, sich nicht zu sehr auf einander zu verlassen und die richtige Darstellung selbst herauszufinden. Es verbessert auch die Erfüllung bestimmter Klassifizierungsaufgaben.

End-to-End-Learning – Ein Algorithmus kann die gesamte Aufgabe von alleine lösen.Zusätzliche Eingriffe von Menschen, wie Modellwechsel/model switching oder neue Datenetkennzeichnung/data labeling, sind nichterforderlich. End-to-end-driving bedeutet zum Beispiel, dass das neuronale Netzwerk herausfindet, wie der Steuerbefehl nur durch die Auswertung vonBildern angepasst werden muss.

Epoche — Umfasst für jedes Beispiel einen einzelnen Vorwärts- und Rückwärtsdurchlauf durch den Trainingssatz. Eine einzelne Epoche umfasst jedes Trainingsbeispiel in einer Iteration.

Forward Propagation / Vorwärtspropagierung – Ein Vorwärtsdurchlauf in tiefen neuronalen Netzwerken. Die Eingabe durchläuft die Aktivierungsfunktionen der verborgenen Schichten, bis sie am Ende ein Ergebnis erzeugt. Forward propagation wird auch verwendet, um das Ergebnis eines Eingabebeispiels vorherzusagen, nachdem die Gewichte ordnungsgemäß trainiert wurden.

Fully-Connected layer /Vollständig verbundene Schicht – Fully-Connected layer transformiert eine Eingabe mit ihren Gewichten und übergibt das Ergebnis an die folgende Schicht.Diese Schicht hat Zugriff auf alle Eingaben oder Aktivierungen der vorherigen Schicht.

Gated Recurrent Unit – Gated Recurrent Unit(GRU) führt an der angegebenen Eingabe mehrere Transformationen durch. Es wird meistens in Aufgaben von Natural Language Processing verwendet. GRUs verhindern das Problem der verschwindenden Gradienten in RNNs, ähnlich wie bei LSTMs. ImGegensatz zu LSTMs verwenden GRUs keine Speichereinheit und sind daher rechnerisch effizienter, wenn sie eine ähnliche Leistung erzielen.

Gradient Descent/Gradientabstieg -Hilft dem neuronalen Netzwerk bei der Entscheidung, wie die Parameter eingestellt werden müssen, um die Kostenfunktion zu minimieren. Die Parameter/Gewichte werden so lange angepasst, bis das globale Minimum gefunden wird.

Human-Level Performance – Die bestmögliche Leistung einer Gruppe von Experten. Algorithmen können dieLeistung auf menschlicher Ebene übertreffen. Wertvolle Metrik zum Vergleich und ur Verbesserung des neuronalen Netzwerks.

Hyperparameter – Bestimmen die Leistung Ihres neuronalen Netzwerks. Beispiele für Hyperparameter sind Lernrate, Iterationen des Gradientenabstiegs, Anzahl der verborgenen Schichten oder die Aktivierungsfunktion. Nicht mit Parametern oder Gewichten zu verwechseln, die DNN selbst lernt.

ImageNet – Dataset tausender Bilder und ihrer kommentierten Klassen. Sehr nützliche Ressource für Bildklassifizierungsaufgaben.

Iteration – Gesamtzahl der Vorwärts-und Rückwärtsdurchläufe eines neuronalen Netzwerks. Jede Stapel zählt als ein Durchgang. Wenn Ihr Trainingssatz 5 Stapel aufweist und 2 Epochen trainiert, werden 10 Iterationen ausgeführt.

Layer/Schicht – Eine Reihe von Aktivierungsfunktionen, die die Eingabe transformieren. Neuronale Netzwerke verwenden mehrere verborgene Schichten, um eine Ausgabe zu erstellen. Man unterscheidet grundsätzlich zwischen den Eingabe-, verborgenen und Ausgabe-Schichten.

Learning Rate Decay – Ein Konzept zur Anpassung der Lernrate während des Trainings. Ermöglicht flexible Anpassungen der Lernrate. Beim tiefen Lernen verfällt typisch die Lernrate, je länger dasNetzwerk trainiert wird.

Maximum Pooling – Wählt nur dieMaximalwerte eines bestimmten Eingabebereichs aus. Sie wird häufig in neuronalen Faltungsnetzwerken verwendet, um die Größe der Eingabe zu reduzieren.

LSTM – Long Short-Term Memory – Eine spezielle Form von RNN, die den Kontext einer Eingabe lernen kann. Während reguläre RNNs an verschwindenden Gradienten leiden, wenn entsprechende Eingaben weit voneinander entfernt sind, können LSTMs diese langfristigen Abhängigkeiten lernen.

Mini-Batch Gradient Descent  – Ein Optimierungsalgorithmus, der den Gradientenabstieg auf kleineren Teilmengen der Trainingsdaten ausführt. Das Verfahren ermöglicht die Parallelisierung, da verschiedene Arbeiterunterschiedliche Mini-Batches separat wiederholen. Für jedes Mini-Batch berechnet die Kosten und aktualisiert die Gewichte des Mini-Batches. Es ist eine effiziente Kombination aus Batch und stochastischem Gradientenabstieg.

Momentum – Ein Algorithmus zur Optimierung des Gradientenabstiegs, um die Oszillationen stochastischer Gradientenabstiegsmethoden zu glätten. Das Momentum berechnet die durchschnittliche Richtung der Richtung der zuvor durchgeführten Schritte und passt die Parameteraktualisierung in diese Richtung an. Stellen Sie sich einenBall vor, der bergab rollt und diesen Moment verwendet, beider Einstellung nach links oder rechts zu rollen. Der Ball, der bergab rollt, ist eine Analogie zum Gradientenabstig, wobei das lokale Minimumermittelt wird.

Neuronales Netzwerk – Ein maschinelles Lernmodell, das Eingaben transformiert. Ein neuronales Netzwerk hat eine Eingabe-, verborgene und Ausgabeschicht. Neuronale Netzwerke sind zum Werkzeug der Wahl geworden, um komplexe Muster in Daten zu finden.

Non-Max-Suppression – Algorithmus, der alsTeil von YOLO verwendet wird. Es hilft, den korrekten Hüllkörper eines Objektes zu erkennen, indem überlappende Hüllkörper mit einer geringeren Zuverlässigkeit der Identifizierung des Objekts eliminiert werden.

RNN – Recurrent Neural Networks / Rekurrentes neuronales Netz -RNNs ermöglichen dem neuronalen Netz, den Kontext in Sprache, Text oder Musik zu verstehen. Das RNN ermöglicht das Durchlaufen von Informationen durch dasNetzwerk, wodurch wichtige Merkmale der Eingabe zwischen früheren und späterenSchichten erhalten bleiben.

ReLU – Die Rektifizierte Lineare Einheit ist eine einfache lineare Transformationseinheit, bei der die Ausgabe Null ist, wenn die Eingabe kleiner als Null ist und die Ausgabe ansonsten gleich der Eingabe ist. ReLU ist die Aktivierungsfunktion der Wahl, da neuronale Netzwerke schneller trainieren können und der Informationsverlust verhindert wird.

Regression – Form des statistischenLernens, bei der die Ausgabevariable ein stetiger Wert anstelle eines kategorialen Werts ist. Während die Klassifizierung der Eingabevariable eineKlasse zuweist, weist die Regression einen Wert zu, der eine unbegrenzte Anzahlmöglicher Werte hat, normalerweise eine Zahl. Beispiele sind die Vorhersage vonHauspreisen oder Alter der Kunden.

Root Mean Squared Propagation -RMSProp ist eine Erweiterung der stochastischen Gradientenabstiegs-Optimierungsmethode. Der Algorithmus weißt eine Lernrate für jeden Parameter auf, jedoch keine Lernrate für den gesamten Trainingssatz. RMSProp passt die Lernrate an, je nachdem, wie schnell sich die Parameter in vorherigen Iterationen geändert haben.

Parameter – Gewichte von DNN, die die Eingabe transformieren, bevor die Aktivierungsfunktion angewendet wird.Jede Schicht verfügt über eigene Parameter. Die Parameter werden durch Backpropagation angepasst, um die Verlustfunktion zu minimieren.

Softmax – Eine Erweiterung derlogistischen Regressionsfunktion, die die Wahrscheinlichkeit der Eingabe zu jeder der vorhandenen Klassen berechnet. Softmax wird häufig in der letztenSchicht von DNN verwendet. Die Klasse mit der höchsten Wahrscheinlichkeit wird als vorhergesagte Klasse ausgewählt. Es eignet sich gut fürKlassifizierungsaufgaben mit mehr als zwei Ausgabeklassen.

Stochastic Gradient Descent / Stochastischer  Gradientenabstieg – EinOptimierungsalgorithmus, der für jedes einzelne Trainingsbeispiel eine Parameteraktualisierung durchführt. Der Algorithmus konvergiert normalerweise viel schneller als der Batch-Gradientenabstieg, der eine Parameteraktualisierung nach der Berechnung der Gradienten für den gesamten Trainingssatz durchführt.

Supervised Learning / Überwachtes Lernen – Form des Deep Learnings, bei dem für jedes Eingabebeispiel ein Ausgabelabel vorhanden ist. Die Labels werden verwendet, um die Ausgabe einer DNN mit den Echten-Label-Werten zu vergleichen und die Kostenfunktion zu minimieren. Andere Formen von Deep-Learning-Aufgaben sind halbüberwachtes Lernen und unüberwachtes Lernen.

Transfer Learning – Eine Technik, um die Parameter eines neuronalen Netzwerks für eine andere Aufgabe zu verwenden, ohne das gesamte Netzwerk neu zu trainieren. Verwenden Sie die Gewichte aus einem zuvor trainierten Netzwerk und entfernen Sie die Ausgabeschicht. Ersetzten Sie die letzte Schicht durch Ihre eigene Softmax- oder Logistikschicht und trainieren Sie das Netzwerk erneut. Funktioniert, weil die unteren Schichten oft ähnliche Kanten erkennen, die für andere Bildklassifizierungsaufgaben nützlich sind.

Unüberwachtes Lernen – Eine Form des maschinellen Lernens, bei der die Ausgabeklasse nicht bekannt ist.GANs oder Variational Auto Encoder werden für unüberwachte Deep-Learning-Aufgaben verwendet.

Validierungsset – Das Validierungsset wird verwendet, um die optimalen Hyperparameter eines tiefen neuronalen Netzwerks zu ermitteln. Im Allgemeinen wird die DNN mit verschiedenen Kombinationen vonHyperparametern trainiert, die mit dem Validierungsset getestet werden. Der Hyperparametersatz mit der besten Leistung wird dann angewendet, um die endgültige Vorhersage für den Testsatz zu treffen. Achten Sie auf den Abgleich des Validierungssatzes. Wenn viele Daten verfügbar sind, verwenden Sie 99% für das Training, 0,5% für die Validierung und 0,5% für den Testsatz.

Vanishing Gradients / Verschwindende Gradienten  – Das Problem tritt auf, wenn sehr tiefe neuronale Netzwerke trainiert werden. Bei der Backpropagation werden die Gewichte basierend auf ihrem Gradienten oder ihrer Ableitung angepasst. In tiefen neuronalen Netzwerken können die Gradienten der früheren Schichten so verschwindend klein werden, dass die Gewichte überhaupt nicht aktualisiert werden. Die ReLU-Aktivierungsfunktion eignet sich zur Behebung dieses Problems, da die Eingabe nicht so stark gequetscht wird wie bei anderen Funktionen.

Variance / Varianz – Wird ausgeführt, wenn die DNN zu den Trainingsdaten passt. Das DNN kann kein Geräusch von einem Muster unterscheiden und modelliert jede Varianz in den Trainingsdaten. Ein Modell mit hoher Varianz kann in der Regel nichtgenau auf neue Daten generalisiert werden.

Vektor – Eine Kombination von Werten, die als Eingaben an eine Aktivierungsschicht einer DNN übergeben werden.

VGG-16 – Eine beliebte Netzwerkarchitektur für CNNs. Es vereinfacht die Architektur von AlexNet und umfasst insgesamt 16 Schichten. Es gibt viele vorgefertigte VGG-Modelle, die durch Transfer-Lernen auf neuartigeAnwendungsfälle angewendet werden können.

Xavier-Initialisierung – Die Xavier-Initialisierung weist die Startgewichte in der ersten verborgenen Schicht so zu, dass die Eingangssignale in das neuronale Netzwerk tief hineinreichen. Sie skaliert die Gewichtebasierend auf der Anzahl der Neuronen und Ausgaben. Auf diese Weise wird verhindert, dass das Signal später im Netzwerk entweder zu klein oder zu groß wird.

YOLO – You Only Look Once ist ein Algorithmus zur Identifizierung von Objekten in einem Bild. Convolutions werden verwendet, um die Wahrscheinlichkeit eines Objektes zu bestimmen, das sich in einem Teil eines Bildes befindet. Non-max suppression und Ankerboxen werden dann verwendet, um die Objekte korrekt zu lokalisieren.