Kann ein neues KI-Modell die menschliche Leistung bei der Beantwortung von Fragen übertreffen?

2 min read

An der Schnittstelle zwischen Computerlinguistik und maschinellem Lernen befinden sich große Dinge.

Kann ein neues KI-Modell die menschliche Leistung übertreffen?

Moderne Methoden des maschinellen Lernens haben sehr große Fortschritte in Computer Vision gemacht, sodass sie die Vorstellungskraft der Öffentlichkeit ergreifen konnten. In letzter Zeit sind die Visionsaufgaben wie Gesichtserkennung, medizinische bildgebende Diagnostik und selbstfahrende Fahrzeuge zu Hauptrichtungen geworden.

Heute gibt es alle Voraussetzungen, um an der Lösung der Aufgaben der Computerlinguistik zu arbeiten und neue Werkzeuge und Methoden in diesem Bereich zu entwickeln. Dies sollte ermöglichen, Geschäftsfragen besser zu beantworten und Geschäftsinformationen effizienter zu organisieren. Es ist spannend zu beobachten, dass CL bezüglich der Modellierungsmethoden, Rechenleistung und verfügbaren Trainingsdaten ähnliche Fortschritte in Computer Vision macht.

Bedeutung von ImageNet

Die Aufgaben der Computer Vision wurden im Jahr 2009 auf ein höheres Niveau gebracht, nachdem der ImageNet-Datensatz veröffentlicht worden ist. Erwähnenswert sei eine handmarkierte Sammlung von 14 Millionen Bildern aus dem Internet mit Beschreibungen und Beschriftungen bestimmter Objekte auf den Bildern. Waren Sie irgendwann gezwungen, Ihre Identität zu beweisen, indem Sie eine Reihe von Bildern in einem “CAPTCHA” kennzeichneten (sehen Sie die Beschreibung unten)? Vielleicht halfen Sie bereits, die KI-Systeme zu trainieren, indem Sie diese Computer Vision-Daten markierten.

Wahrscheinlich haben Sie bereits dazu beigetragen, die KI-Systeme mit einem “CAPTCHA” zu trainieren (“Completely Automated Public Turing test to tell Computers and Humans Apart”)

Im Hinblick auf all diese gut organisierten, manuell markierten Daten begannen damals die Visionalgorithmen viel besser zu funktionieren, aber der wirkliche Sprung geschah im Jahr 2012, als der Datensatz mit einem “tiefen” neuronalen Netzwerk verbunden wurde. In diesem Fall bedeutet “tief”, dass das Netzwerk aus vielen Schichten miteinander verbundenen, nichtlinearer Kalkülen wie das menschliche Gehirn aus Neuronen besteht, sodass es komplexe Muster und Ergebnisse stapeln und speichern kann. Dies ist wie Zauberei: Tiefe Netzwerke könnten ihre Leistung weiter verbessern, wobei sie einfach von immer mehr Trainingsdaten gesättigt werden. Im Gegensatz dazu stehen traditionelle Algorithmen, die ungeachtet der Menge an Trainingsdaten letztendlich zum Plateau werden. Das erste solches Modell des tiefen Lernens zerstörte den bisherigen Stand der Technik vollständig, da es seine Genauigkeitsrate um 41% übertraf und den gegenwärtigen Durchbruch des tiefen Lernens in Wissenschaft und Wirtschaft schaffte.

ImageNet-Moment der Computerlinguistik

Dank der neugierigen, sich gegenseitig ausbildenden Forschern fanden diese neuen Methoden ihren Weg in die Sprachlabors, wo sie jahrzehntealte Paradigmen widerlegten und neue Fortschritte anregten. Der CL-Forscher Sebastian Ruder beschrieb dies in einem seiner Fachartikel als den Beginn des “ImageNet-Moments” der Computerlinguistik.

Wie funktionierten früher traditionelle CL-Modelle? Einige versuchten, komplizierte Sätze von grammatischen Regeln und Entscheidungsbäumen zu schreiben. Die unendlich gekrümmten Strukturen der menschlichen Sprache würden sie grob mit einem harten Grenzfall nach dem Grenzfall durchgehen, den sie nicht bearbeiten konnten. Probabilistische Sprachmodelle sind andere traditionellen CL-Algorithmen. Sie versuchten einfach, das nächste Wort auf Basis des vorheriges vorherzusagen. Sie würden auch zusammenbrechen, ohne einen umfassenderen Kontext für die Situation als das vorherige Wort und die Kette früherer Wahrscheinlichkeiten zu haben. Obwohl all diese Methoden und Algorithmen für bestimmte Aufgaben sehr hilfreich sind und immer noch gute Grundlinien und Ausgangspunkte bleiben, verändern die Methoden des maschinellen Lernens das Spiel dramatisch.

In diesem Artikel bieten wir einen kurzen Überblick über das neueste Modell des Google KI-Forschungsteams, das als BERT (Bidirectional Encoder Representations from Transformers) bekannt ist. Die letzten Veröffentlichungen, die den Stand der Technik beschleunigen, bezeichnen dieses neu erschienene Modell als das beste CL-Modell aller Zeiten.

Bei der Beantwortung von Fragen ist ein BERT-Modell besser als Menschen

Um ein leistungsfähiges, universelles Sprachmodell, das einfach für bestimmte Aufgaben angepasst und umwandelt werden kann, zu trainieren, verwendet das neue BERT-Modell neue Architekturen und Methoden. Die Ausgabeschicht des Modells werden auf verschiedene, flexible Weisen verfeinert und führen verschiedene Aufgaben in der Rangliste der GLUE-Benchmarks (General Language Understanding Evaluation) durch. Nachfolgende Tabelle zeigt, dass die BERT-basierten Modelle die aktuellsten Ergebnisse für die meisten der aufgabenspezifischen Benchmarks der Industrie übertreffen.

Die Rangliste der GLUE-Benchmarks. Stand: 15.11.2018

Auffällig ist das Ergebnis des BERT-Modells bei der Beantwortung von Fragen. Mithilfe des Stanford Question Answering Datasets (SQuAD v1.1), eines der Industriestandard-Benchmarks, wird gemessen, wie genau ein CL-Modell kurze Antworten auf eine Reihe von Fragen zu einem kleinen Textartikel liefern kann. Um einen Benchmark für menschliche Leistung zu ermitteln, wurde ein Test von einer Gruppe von Menschen durchgeführt, indem sie ihre Antworten aus verschiedenen Artikeln erklärten und kennzeichneten. Das für Frageantworten feinabgestimmte BERT-Modell übertrifft erstmals die menschliche Leistung.

Erst vor kurzem haben die Forscher die vortrainierten Modelle und den Code für BERT veröffentlicht. Ohne Zweifel kommen jetzt spannende Zeiten für die Entwicklung der CL-Systeme. Bleiben Sie auf dem Laufenden und lesen unsere Veröffentlichungen.

Sollten Sie Fragen zu BERT-Modellen haben, so können Sie sich an das Team von AI-United.de per Mail oder Q&A wenden.

Quelle

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.