AI-United » Allgemein » Wie erfolgt die Regularisierung in neuronalen Netzwerken?

Wie erfolgt die Regularisierung in neuronalen Netzwerken?

Wie erfolgt die Regularisierung in neuronalen Netzwerken?

Das Training eines Modells ähnelt dem Kauf einer Hose. Man kann entweder eine kleine kaufen oder eine große, was mit einer Überanpassung enden würde. Dies bedeutet, dass man eher über- als unterangepasst ist, da man in diesem Fall einen Gürtel anziehen und trotzdem die Hose tragen kann. In diesem Artikel wird dieser Fall behandelt.

Regularisierung

Quelle: Udacity-Kurs für tiefes Lernen

Regularisierung bezieht sich auf das Training des Modells, um zuvor noch nicht gesehene Daten zu verallgemeinern. Es gibt verschiedene Regularisierungsmethoden. In diesem Artikel wird Dropout behandelt, andere Methoden wie Datenaugmentation und Gewichtsabnahme werden außer Acht gelassen. 

Dropout

Ein vollständig verbundenes neuronales Netzwerk kann man als eine Reihe von Parametern (oder Gewichtungen) und Aktivierungen betrachten. Nachdem Inputs durch das Netzwerk gegangen sind, kommen sie als Vorhersagen heraus. Diese Vorhersagen werden dann zur Backpropagation der Fehler auf verschiedenen Schichten des Netzwerks und zur entsprechenden Aktualisierung der Gewichtungen verwendet.

Manchmal sind die Gewichtungen in einem Teil des Netzwerks so groß, dass sie die Vorhersagen wesentlicher als andere Teile des Netzwerks beeinflussen. Dies kann zur Speicherung der Inputs und somit zur Überanpassung führen. Jeder Datenwissenschaftler strebt danach, dies zu vermeiden.

In diesem Fall werden zufällig bestimmte Teile des Netzwerks beim Training deaktiviert. Es wird entschieden, in dieser Epoche oder in diesem Mini-Batch eine vorher spezifizierte Anzahl von Neuronen auszuschalten. Es handelt sich um die Regularisierungsmethode, die als Dropout bekannt ist.

Quelle: Udacity-Kurs für tiefes Lernen

Aber wie wird entschieden, welche Neuronen ausgeschaltet werden sollten? Zu diesem Zweck wird jedem Neuron eine Wahrscheinlichkeit ps zugewiesen. Das Neuron kann dann auf Basis dieser Wahrscheinlichkeit seinen Output berechnen oder nicht. 

Beispielsweise kann jede Schicht bei Fast.ai-Lernenden eine andere Wahrscheinlichkeit haben, da die Wahrscheinlichkeit schichtweise übergeben wird.

learn = tabular_learner(data, layers=[1000,500],      
                        ps=[0.001,0.01],emb_drop=0.04, 
                        y_range=y_range, metrics=exp_rmspe)

Es sollte darauf hingewiesen werden, dass einige Knoten häufiger als die anderen deaktiviert werden können, aber da dies immer wieder neu durchgeführt wird, wird im Durchschnitt jeder Knoten gleich behandelt. Noch eine wichtige Anmerkung besteht darin, dass Dropout nur beim Training verwendet wird. Beim Testen bestehen immer alle Knoten des Netzwerks.

Werte von ps

Eine wichtige Frage ist auch, wie die Werte von ps im Allgemeinen sein sollten? Wenn es zu viel Dropout gibt, wird dadurch die Kapazität des Modells verringert und es passt nicht mehr. Wie auch bei der Gewichtsabnahme oder Lernrate ist es notwendig, so lange dieses Spiel zu spielen, bis man ein Gefühl dafür bekommen hat, was am besten funktioniert.

Schlußbemerkungen

Wie bereits erwähnt wurde gibt es drei gebräuchlisten Methoden zur Regularisierung der Modelle des tiefen Lernens. Es gibt jedoch keine Vorschriften, in welchen Fällen welche Methoden verwendet und welche vermieden werden sollten. In der Praxis sind die Gewichtsabnahme und das Dropout gebräuchlicher. Die Datenaugmentation ist auch sehr nützlich, da diese Methode kostenlos ist. Im Grunde genommen sind dies kostenlose Daten. Wie sie eingesetzt wird, ist von konkreten Anwendungen abhängig.

Zum Schluß betrachten wir als Beispiel die Helligkeit. Für die meisten Anwendungen wird ein Bild nur so lange umgewandelt, bis klar wird, was es ist. Es soll weder zu dunkel noch zu hell sein. Mithilfe des Validierungssatzes wird festgestellt, welche Art von Umwandlungen am besten ist.

Laut Jeremy Howard, dem Gründungsforscher bei fast.ai besteht eine der großen Möglichkeiten für die Forschung darin, den Weg zur Datenaugmentation in anderen Gebieten zu finden. Wie kann also eine Datenaugmentation mit Textdaten oder genomischen Daten oder histopathologischen Daten oder anderen Daten durchgeführt werden? Dies könnte eine der größten Möglichkeiten zur Senkung der Datenanforderung um das Fünffache bis Zehnfache sein. 

Möchten Sie mehr über die Regularisierungsmethoden in neuronalen Netzwerken erfahren, so können Sie sich an das Team von AI-United.de per Mail oder Q&A wenden.

Quelle

AI-United-Redaktion

Kommentar hinzufügen

Your email address will not be published. Required fields are marked *

300-101   400-101   300-320   300-070   300-206   200-310   300-135   300-208   810-403   400-050   640-916   642-997   300-209   400-201   200-355   352-001   642-999   350-080   MB2-712   400-051   C2150-606   1Z0-434   1Z0-146   C2090-919   C9560-655   642-64   100-101   CQE   CSSLP   200-125   210-060   210-065   210-260   220-801   220-802   220-901   220-902   2V0-620   2V0-621   2V0-621D   300-075   300-115   AWS-SYSOPS   640-692   640-911   1Z0-144   1z0-434   1Z0-803   1Z0-804   000-089   000-105   70-246   70-270   70-346   70-347   70-410