AI-United » NLP » 7 Arten künstlicher neuronaler Netzwerke in der linguistischen Datenverarbeitung

7 Arten künstlicher neuronaler Netzwerke in der linguistischen Datenverarbeitung

7 Arten künstlicher neuronaler Netzwerke in der linguistischen Datenverarbeitung

In diesem Artikel versuchen wir, folgende Fragen zu beantworten: Was wird mit einem künstlichen neuronalen Netzwerk gemeint? Wie arbeitet es? Welche Arten von künstlichen neuronalen Netzwerken unterscheidet man? Wie verwendet man sie bei der Verarbeitung natürlicher Sprachen?

KNN (künstliches neuronales Netzwerk, auf Englisch ANN / Artificial neural network) ist ein nichtlineares Computermodell auf der Basis der neuronalen Struktur des Gehirns, das imstande ist, Aufgaben wie Klassifizierung, Vorhersage, Entscheidungstreffen, Visualisierung und anderes mehr anhand von Beispielen zu lösen.

Ein künstliches neuronales Netzwerk enthält künstliche Neuronen oder Verarbeitungselemente und kann als eine Struktur aus drei miteinander verbundenen Schichten dargestellt werden: Eingabe, verdeckte Schicht, die aus mehreren Schichten bestehen kann, und Ausgabe.

Die Eingabeschicht besteht aus Eingabe-Neuronen, dank derer die Informationen an die verdeckte Schicht geschickt werden. Die verdeckte Schicht ihrerseits liefert Daten an die Ausgabeschicht. Jedes Neuron besteht aus drei Teilen: gewichtete Eingänge (Synapsen), einer Aktivierungsfunktion (bestimmt die Ausgabe, die die Eingabe beeinflußt) und einer Ausgabe. Synapsen sind die einstellbaren Parameter, deren Aufgabe die Umwandlung eines neuronalen Netzwerks in ein parametrisiertes System ist. Die Aktivierungsfunktion bestimmt die Ausgabe, die die Eingabe beeinflußt.

Das Aktivierungssignal wird von der gewichteten Summe der Eingänge hergestellt und an die Aktivierungsfunktion weitergegeben. Auf diese Art entsteht eine Ausgabe aus dem Neuron. Man unterscheidet folgende Typen der Aktivierungsfunktionen: lineare, Treppenfunktion, Sigmoidfunktion, Tanh und gleichgerichtete lineare Einheiten (ReLu).

Lineare Funktion

f(x)=ax

Treppenfunktion
Logistische (Sigmoid) Funktion
Tanh-Funktion
Funktion der gleichgerichteten linearen Einheiten (ReLu)

Das Training ist der Prozess der Gewichtungssoptimierung. Er besteht darin, den Fehler der Vorhersagen zu minimieren und dem Netzwerk ein bestimmtes Niveau der Genauigkeit zu geben. Die beliebteste Methode zur Bestimmung des Fehlerbeitrags jedes Neurons wird Backpropagation genannt. Sie berechnet den Gradienten der Verlustfunktion.

Es ist möglich, das System flexibler und leistungsfähiger zu machen, indem man weitere verdeckte Schichten verwendet. DNN (Deep Neural Network) ist die Bezeichnung für ein künstliches neuronales Netzwerk mit vielen verdeckten Schichten zwischen den Eingabe- und Ausgabeschichten, das komplexe nichtlineare Beziehungen modellieren kann.

1. Mehrlagiges Perzeptron (MLP)

Ein mehrlagiges Perzeptron (MLP) enthält drei oder mehrere Schichten. Dabei wird eine nichtlineare Aktivierungsfunktion (vor allem hyperbolische Tangens- oder Logistikfunktion) verwendet, die die nicht linear trennbaren Daten klassifiziert. Da jeder Knoten in einer Schicht mit entsprechenden Knoten in der folgenden Schicht verbunden ist, wird dadurch das Netzwerk vollständig verbunden. Die Spracherkennung und maschinelle Übersetzung sind zwei wichtige Verwendungsbereiche des mehrlagigen Perzeptrons in der linguistischen Datenverarbeitung (LDV).

2. Convolutional neural network (CNN) / Faltendes neuronales Netzwerk

Ein faltendes neuronales Netzwerk besteht aus einer oder mehreren Faltungsschichten, die zusammengefügt oder vollständig verbunden sind. Es verwendet eine Variation des mehrlagigen Perzeptrons, das oben beschriebenen wurde. Faltungsschichten verwenden eine Faltungsoperation für die Eingabe, um das Ergebnis an die nächste Schicht zu übergeben. Diese Operation erlaubt dem Netzwerk, mit weniger Parametern tiefer zu arbeiten.

Faltende neuronale Netzwerke zeigen ausgezeichnete Ergebnisse bei Bild- und Sprachanwendungen. Yoon Kim in seiner Arbeit „Convolutional Neural Networks for Sentence Classification“ betrachtet den Prozess und die Ergebnisse der Aufgaben von Textklassifizierung, wenn faltende neuronale Netzwerke verwendet werden [1]. Auf der Basis von word2vec erstellt er ein Modell, führt eine Reihe von Experimenten damit durch und testet es mit einigen Bezugswerten, um zu beweisen, dass das Modell ausgezeichnet funktioniert. Faltende neuronale Netzwerke können außerordentliche Leistungen ohne Kenntnis von Wörtern, Phrasen, Sätzen und anderen syntaktischen oder semantischen Strukturen in Bezug auf eine menschliche Sprache erzielen.

Dies bewiesen Xiang Zhang und Yann LeCun in “Text Understanding from Scratch[2]. Die wichtigsten Anwendungen des faltenden neuronalen Netzwerkes sind Semantisches Parsing [3], Entdeckung von Paraphrasen [4] und Spracherkennung [5].

3. Rekursives neuronales Netzwerk (RNN)

Ein rekursives neuronales Netzwerk (RNN) ist eine Art eines tiefen neuronalen Netzwerks, das bei der Anwendung des gleichen Satzes von Gewichten rekursiv über eine Struktur gebildet wird. Seine Aufgabe ist es, eine strukturierte Vorhersage über Eingangsstrukturen mit variabler Größe oder eine skalare Vorhersage darüber zu machen, indem eine bestimmte Struktur in topologischer Reihenfolge durchquert [6]. Eine Nichtlinearität wie Tanh und eine Gewichtsmatrix, die durch das gesamte Netzwerk verteilt ist, werden in der einfachsten Architektur verwendet, um die Knoten in Eltern zu verbinden.

4. Rekurrentes neuronales Netzwerk (RNN)

Ein rekurrentes neuronales Netzwerk (RNN) ist ein Gegensatz zu einem neuronalen Mitkopplungsnetzwerk / feedforward neural network.  Man betrachtet es als eine Variante eines rekursiven künstlichen neuronalen Netzwerks, in dem ein gerichteter Zyklus durch die Verbindungen zwischen Neuronen gebildet ist. Dies bedeutet, dass die Ausgabe nicht nur von den aktuellen Eingaben, sondern auch vom Neuronenzustand des vorherigen Schrittes abhängig ist. Dieser Speicher erleichtert den Benutzern, die Probleme im Bereich der Computerlinguistik wie die Erkennung von Handschriften oder Spracherkennung zu lösen. In dem Artikel „Natural Language Generation, Paraphrasing and Summarization of User Reviews with Recurrent Neural Networks“ wird von den Autoren ein Modell des rekurrenten neuronalen Netzwerkes dargestellt, das neue Sätze und Dokumentzusammenfassungen erzeugen kann [7].

Siwei Lai, Liheng Xu, Kang Liu und Jun Zhao erstellten  und beschrieben in „Recurrent Convolutional Neural Networks for Text Classification“ ein rekurrentes faltendes neuronales Netzwerk für die Textklassifizierung ohne vom Menschen entworfene Merkmale. Ihr Modell wurde mit existierenden Methoden der Textklassifizierung wie Bag of Words, Bigrams + LR, SVM, LDA, Tree Kernels, Recursive Neural Network und CNN verglichen. Man kann sehen, dass ihr Modell die traditionellen Methoden für alle verwendeten Datensätze übertrifft [8].

5. Long short-term memory (LSTM)

Long Short-Term Memory (LSTM) ist eine spezifische Architektur des rekurrenten neuronalen Netzwerkes. Sie erleichtert, zeitliche Sequenzen und ihre weitreichenden Abhängigkeiten genauer als konventionelle RNNs zu modellieren [9]. LSTM hat folgende Besonderheiten: Es verwendet keine Aktivierungsfunktion innerhalb seiner rekurrenten Bestandteilen, die gespeicherten Werte werden nicht geändert und der Gradient neigt nicht zum Verschwinden während des Trainings. Gewöhnlich werden LSTM-Einheiten in „Blöcke“ mit verschiedenen Einheiten implementiert. Diese Blöcke enthalten drei oder vier „Tore“ (z. B. Eingangstor, Forget Gate, Ausgangstor), die den Informationsfluss in Bezug auf die logistische Funktion kontrollieren.

Hasim Sak, Andrew Senior und Françoise Beaufays bewiesen in „Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling„, dass die tiefen LSTM-RNN-Architekturen eine hoch entwickelte Leistung für umfangreiche akustische Modellierung erreichen.

Peilu Wang, Yao Qian, Frank K. Soong, Lei He und Hai Zhao präsentierten in ihrer Forschung „Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network“ ein Modell für Tagging/Erkennung von Wortarten [10]. Das Modell erreichte eine Leistung von 97,40% der Erkennungsgenauigkeit. LSTM wurde als grundlegendes Element von Apple, Amazon, Google, Microsoft und anderen Unternehmen in ihre Produkte integriert.

6. Sequence-to-sequence models / Sequenz-zu-Sequenz-Modelle

Gewöhnlich enthält ein Sequenz-zu-Sequenz-Modell zwei rekurrenten neuronalen Netzwerke: einen Codierer, der die Eingabe erzeugt, und einen Decoder, der die Ausgabe erzeugt. Sie können dieselben oder verschiedene Parametersätze verwenden.

Die wichtigsten Anwendungsbereiche dieses Modells sind Frage-Antwort-Systeme, Chatbots und maschinelle Übersetzungen. Solche Mehrschichtzellen wurden erfolgreich in Sequenz-zu-Sequenz-Modellen für die Übersetzung  verwendet, was in „Sequence to Sequence Learning with Neural Networks study“ betrachtet wurde [11].

In „Paraphrase Detection Using Recursive Autoencoder“ wird eine neue rekursive Autoencodierer-Architektur beschrieben. Ihre Besonderheit besteht darin, dass die Darstellungen die Vektoren in einem n-dimensionalen semantischen Raum sind, in dem Phrasen mit ähnlichen Bedeutungen nahe beieinander sind [12].

7. Flache neuronale Netzwerke

So wie tiefe neuronale Netzwerke kann man auch flache Modelle zu beliebten und nützlichen Werkzeugen zählen. Zum Beispiel ist word2vec eine Gruppe von flachen zweischichtigen Modellen, die dem Erstellen von Worteinbettungen dient. Word2vec, der in „Efficient Estimation of Word Representations in Vector Space“ dargestellt wurde, nimmt einen großen Textkorpus als seine Eingabe und stellt einen Vektorraum her [13]. Jedes Wort im Korpus bekommt den entsprechenden Vektor in diesem Raum. Die Besonderheit dieses Modells besteht darin, dass Wörter aus gemeinsamen Kontexten im Korpus im Vektorraum nahe beieinander liegen.

Zusammenfassung

In diesem Artikel wurden verschiedene Varianten von künstlichen neuronalen Netzwerken beschrieben. Diese sind das mehrlagige Perzeptron (MLP), Convolutional neural network (CNN) / faltendes neuronales Netzwerk, rekursives neuronales Netzwerk (RNN), rekurrentes neuronales Netzwerk (RNN), Long short-term memory (LSTM), Sequenz-to-Sequenz-Modell und flache neuronale Netzwerke mit word2vec für Worteinbettungen. Es wurde betrachtet, wie diese Netzwerke arbeiten und wie verschiedene Arten von ihnen in linguistischer Datenverarbeitung verwendet werden. Es wurde der Unterschied in der Anwendung von verschiedenen Arten von Netzwerken festgestellt: faltende neuronale Netzwerke werden hauptsächlich für die Aufgaben der Textklassifizierung verwendet, rekurrente neuronale Netzwerke werden dagegen häufig für die Erzeugung natürlicher Sprache oder für maschinelle Übersetzung verwendet.

Möchten Sie die Unterschiede in der Verwendung von künstlichen neuronalen Netzwerken in der linguistischen Datenverarbeitung genauer erlernen, so können Sie sich gerne an das Team von AI-United.de per Mail oder Q&A wenden.

Resources
  1. http://www.aclweb.org/anthology/D14-1181
  2. https://arxiv.org/pdf/1502.01710.pdf
  3. http://www.aclweb.org/anthology/P15-1128
  4. https://www.aclweb.org/anthology/K15-1013
  5. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CNN_ASLPTrans2-14.pdf
  6. https://en.wikipedia.org/wiki/Recursive_neural_network
  7. http://www.meanotek.ru/files/TarasovDS(2)2015-Dialogue.pdf
  8. https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9745/9552
  9. https://wiki.inf.ed.ac.uk/twiki/pub/CSTR/ListenTerm1201415/sak2.pdf
  10. https://arxiv.org/pdf/1510.06168.pdf
  11. https://arxiv.org/pdf/1409.3215.pdf
  12. https://nlp.stanford.edu/courses/cs224n/2011/reports/ehhuang.pdf
  13. https://arxiv.org/pdf/1301.3781.pdf
AI-United-Redaktion

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.