XLNet ist ein vorläufig trainiertes Modell, das an jede Aufgabe der Textbearbeitung adaptiert werden kann. XLNet übertrifft BERT (das fortgeschrittene Modell) in 20 Aufgaben zur natürlichen Sprachverarbeitung. XLNet lieferte fortgeschrittene Resultate für 18 Aufgaben. Zu diesen Aufgaben gehören das Frage-Antwort-System, die Analyse vom Gefühlswert, Dokumentenranking usw.
Auf der Aufgabe der Kontextmodellierung haben sich die Ansätze mit dem vorläufigen Trainieren, die auf dem Autoencoder (BERT) basieren, besser etabliert als die Ansätze, die auf der autoregressiven Sprachmodellierung basieren. Doch die Methode mit dem Autoencoder hat seine Grenzen. Die Masken werden auf die Eingabefolge der Wörter verwendet, wobei die Unterschiede zwischen den versteckten Wörtern nicht in Betracht gezogen werden. Die Architektur von XLNet nimmt die Vor- und Nachteile von BERT in Betracht und enthält die Ideen von Transformer-XL.
Die Schlüsseleigenschaften
XLNet ist eine verallgemeinerte autoregressive Methode. Sie umfasst die Eigenschaften von autoregressiven Sprachmodellen und Autoencodern.
Das Neuronennetz verwendet keine fixierten direkt gerichteten und umgekehrt gerichteten Faktorisierungsordnungen. XLNet maximiert den erwarteten Logarithmus der Wahrscheinlichkeit der Wortfolge unter Beachtung aller Veränderungen der Wortfolge. Dank der Umstellungen kann der Kontext für jede Position aus den Wörtern auf der rechten und linken Seite bestehen. Das Wort auf jeder Position in der Sequenz lernt, die Kontextinformation aus allen anderen Positionen einzusetzen (bidirectional context).
XLNet maskiert die Wörter in der Reihenfolge nicht. Dieses Modell hat keine Probleme mit der Nichtübereinstimmung beim vorläufigen Trainieren und Tuning (für bestimmte Aufgaben). Dieses Problem ist charakteristisch für BERT.
XLNet verwendet die neue Zielfunktion. Die Ideen aus dem kürzlich publizierten Sprachmodell Transformer-XL werden teilweise eingesetzt.
XLNet in Experimenten
Wissenschaftler haben die Arbeit dieses Modells mit den fortgeschrittenen Methoden für 20 Aufgaben der natürlichen Sprachverarbeitung verglichen. RACE ist eine von ihnen. Im Nachstehenden sieht man die Resultate der Modelle für zwei Subsets von Daten (Middle und High). Die Modelle BERT und XLNet hatten 24 Schichten und waren von ähnlicher Größe. Für alle Experimente wurde BERT-Large eingesetzt (die Vollversion des Modells). XLNet verbessert die Resultate des besten Mittelwertkollektivs der Modelle um 7,6 Punkte in der Präzision.

Die Forscher verglichen die Modelle auf einigen Datensätzen zur Textklassifizierung. XLNet erreichte bessere Resultate als andere Modelle.
