Aktivierungsfunktionen: Neuronale Netze

2 min read

Sigmoid, tanh, Softmax, ReLU, Leaky ReLU erklärt!!!

Aktivierungsfunktionen

Was ist eine Aktivierungsfunktion?

Es ist nur ein Element (Knoten), dass Sie zur Ausgabe eines neuronalen Netzwerks hinzufügen. Es wird auch als Übertragungsfunktion bezeichnet. Es kann auch zwischen zwei neuronalen Netzwerken angeschlossen werden.

Warum verwendet man Aktivierungsfunktionen in neuronalen Netzwerken?

Es wird verwendet, um die Ausgabe des neuronalen Netzwerks wie Ja oder Nein zu bestimmen. Es bildet die resultierenden Werte zwischen 0 zu 1 oder -1 zu 1 u.s.w. ab (abhängig von der Funktion).

Die Aktivierungsfunktionen können grundsätzlich in zwei Typen unterteilt werden:

  1. Lineare Aktivierungsfunktion.
  2. Nicht-Lineare Aktivierungsfunktionen.

Zu Ihrer Information: Es gibt einen Spickzettel unten.

Lineare oder Identitäts Aktivierungsfunktion

Wie man sieht, ist die Funktion eine Linie oder linear. Daher wird die Ausgabe der Funktionen nicht auf einen Bereich beschränkt.

Lineare Aktivierungsfunktion

Gleichung: f(x) = x

Bereich: (unendlich bis unendlich)

Es hilft nicht bei der Komplexität oder den verschiedenen Parametern der üblichen Daten, die in die neuronalen Netze eingespeist werden.

Nicht-Lineare Aktivierungsfunktion

Nicht-Lineare Aktivierungsfunktionen sind die am häufigsten verwendeten Aktivierungsfunktionen. Nichtlinearität hilft, den Graphen in etwa so aussehen zu lassen.

Nicht-Lineare Aktivierungsfunktionen

Dadurch kann das Modell leicht verallgemeinert oder mit verschiedenen Daten anpassen und zwischen den Ausgaben zu unterscheiden.

Die wichtigsten für das Verständnis nichtlinearer Funktionen benötigten Terminologien sind:

Ableitung oder Differential: Änderung der y-axis w.r.t. Änderung in x-axis. Es wird auch als Steigung bekannt.


Monotone Funktion: 
eine Funktion, die entweder ganz nicht steigend oder nicht abnehmend ist.

Die Nicht-Lineare Aktivierungsfunktionen sind hauptsächlich auf der Grundlage ihres Bereichs oder ihrer Kurven unterteilt.

1. Sigmoid- oder logistische Aktivierungsfunktion

Die Sigmoid-Funktionskurve sieht aus wie eine S-Form.

Sigmoid-Funktion

Der Hauptgrund für die Verwendung der Sigmoid-Funktion liegt darin, dass sie zwischen (0 bis 1) liegt. Daher wird es insbesondere für Modelle verwendet, bei denen die Wahrscheinlichkeit als Ausgabe vorhergesagt werden muss. Da die Wahrscheinlichkeit von irgendetwas nur zwischen 0 und 1 liegt, ist Sigmoid die richtige Wahl.

Die Funktion ist differenzierbar. Das heißt, wir können die Neigung der Sigmoid-Kurve an zwei beliebigen Punkten finden.

Die Funktion ist monoton, die Ableitung der Funktion jedoch nicht.

Die logistische Sigmoid-Funktion kann dazu führen, dass ein neuronales Netzwerk zur Trainingszeit stecken bleibt.

The Softmax-Funktion ist eine allgemeinere logistische Aktivierungsfunktion, die zur Multiklassenklassifizierung verwendet wird.

2. Tanh oder hyperbolic tangent Aktivierungsfunktion

tanh ist wie Sigmoid, aber besser. Der Bereich der Tanh-Funktion reicht von (-1 bis 1). Tanh ist auch sigmoidal (s – förmig).

Tanh- und Sigmoid-Funktion

Der Vorteil ist, dass die negativen Eingänge stark negativ und die Null-Eingänge in der Tanh-Grafik nahe null abgebildet werden.

Die Funktion ist differenzierbar.

Die Funktion ist monoton, während ihre Ableitung nicht monoton ist.

Die Tanh-Funktion wird hauptsächlich zur Klassifizierung zwischen zwei Klassen verwendet.

3. ReLU (Rectified Linear Unit) Aktivierungsfunktion

Die ReLU ist derzeit die am häufigsten verwendete Aktivierungsfunktion der Welt. Seit neustem wird sie in fast allen konvolutionellen neuronalen Netzwerken bzw. im Deep Learning eingesetzt.

ReLU Aktivierungsfunktion

Wie man sieht, ist die ReLU (von unten) zur Hälfte korrigiert. f (z) ist null, wenn z kleiner als null ist und f (z) ist gleich z, wenn z über oder gleich null ist.

Bereich: [0 bis unendlich]

Die Funktion und ihre Ableitung sind monoton.

Das Problem ist jedoch, dass alle negativen Werte sofort Null werden, wodurch die Fähigkeit des Modells verringert wird, die Daten richtig anzupassen oder zu trainieren. Das heißt, jede negative Eingabe, die der ReLU-Aktivierungsfunktion gegeben wird, setzt den Wert sofort in Null um, was wiederum die Ergebnisse beeinflusst, indem die negativen Werte nicht ordnungsgemäß zugeordnet werden.

4. Leaky ReLU

Es ist ein Versuch, das ReLU-Problem zu lösen.

ReLU und Leaky ReLU

Kannst du das Leck sehen? 😆

Dieses Leck hilft, die Reichweite der ReLU-Funktion zu erhöhen. In der Regel beträgt der Wert von a etwa 0,01..

Wenn a nicht 0,01 ist, wird es als Randomized ReLU bezeichnet.

Daher ist der Bereich der Leaky ReLU (-unendlich bis unendlich).

Die Funktionen Leaky und Randomized ReLU sind monoton von Natur. Auch ihre Derivate sind von Natur auch monoton.

Warum wird Ableitung bzw. Differenzierung verwendet?

Wenn man die Kurve aktualisiert, erfährt man, in welche Richtung und in welchem Umfang man die Kurve je nach Neigung ändert oder aktualisiert werden soll. Deshalb verwendet man Differenzierung in fast jedem Bereich im Machine Learning und Deep Learning.

Spickzettel
Differenzierung

Haben Sie die Grundlagen der Aktivierungsfunktionen verstanden? Ist noch etwas unklar?

Welche Aktivierungsfunktionen sehen Sie öfter in der Praxis?

Fragen beantwortet Ihnen gerne das AI United Team per Email oder in dem Q&A Bereich.

Quellen: https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.