AI-United » Allgemein » Brain2Char: das Neuronennetz dekodiert Text aus Gehirnmessungen

Brain2Char: das Neuronennetz dekodiert Text aus Gehirnmessungen

Brain2Char ist ein Neuronennetz, das die Information aus Gehirnmessungen in Text dekodiert. Dies ist das erste Modell, das das Problem der zeichenseriellen Textwiederherstellung auf der Grundlage der Elektrokortikographie löst. Brain2Char kombiniert fortgeschrittene Modelle: 3D-Inception-Schichten, bilaterale rekurrente Schichten, erweiterte Faltungsschichten, CTC-Verlustfunktion.

Der Prozentsatz der Fehler des Modells beim Dekodieren des Textes von drei Freiwilligen betrug 10,6%, 8,5% und 7,0%. Der Umfang des Wörterbuchs reichte von 1.200 bis 1.900 Wörtern. Brain2Char funktioniert gut, wenn zwei Teilnehmer die Wörter mit Hilfe der Mimik tonlos darstellen.

Die Dekodierung von Sprachdarstellungen direkt aus dem Gehirn fördert die Entwicklung von Schnittstellen zur Interaktion von Gehirn und Computer (BCI). Solche Schnittstellen können zur Kommunikation zwischen zwei Menschen und zwischen einem Menschen und einem Computer eingesetzt werden.

Die Architektur des Modells 

Brain2Char hat eine modulare Struktur und besteht aus drei Teilen: einem neuronalen Kodierer der Eigenschaften, einem Textdekodierer und einem Regularizer des Raums der verborgenen Darstellungen. Die modulare Struktur lässt die Komponenten des Neuronennetzes aktualisieren, ohne Veränderungen in die Struktur des Modells zu treffen. Das Vorhersagemodell besteht aus einem Kodierer und einem Dekodierer. Der Teil mit Regularisierung wird nur in der Phase des Trainierens angewandt.

Die Daten aus dem Gehirn werden mit Hilfe der Elektrokortikographie aufgenommen, wenn ein Freiwilliger spricht. Das Neuronennetz erhält 3D-Bilder des Gehirns am Input, am Output liefert es den Text, der zeichenweise generiert wurde.

Die Visualisierung der Komponenten des Neuronennetzes

Das Testen des Modells

An der Studie nahmen 4 Freiwillige teil, deren Sprache und Gehirnaktivität synchron aufgenommen wurden. Die Rede der Teilnehmer bestand aus den Sätzen aus dem Datensatz MOCHA-TIMIT (für die ersten zwei Teilnehmer) und stellte ein Interview in freier Form dar (für die anderen Teilnehmer). Der Umfang des Wörterbuchs im Datensatz beträgt 1.900 Wörter. Der Umfang des Wörterbuchs beim Interview betrug 1.200 Wörter.

Insgesamt wurden 120-200 Gesprächsminuten für jeden Teilnehmer gesammelt. Die Teilnehmer 3 und 4 übertrugen einander 20 Sätze tonlos mit Hilfe der Mimik.

Unten sieht man, dass mit zunehmender Lernzeit die Fehlerrate um mehr als die Hälfte reduziert wird.

Der Fehlerprozentsatz (WER) beim Ändern der Lernzeit für vier Freiwillige, deren Gehirnwerte aufgenommen wurden. Die Freiwilligen nahmen an Experimenten unter verschiedenen Bedingungen teil.
Quelle
AI-United-Redaktion

Kommentar hinzufügen

Your email address will not be published. Required fields are marked *

300-101   400-101   300-320   300-070   300-206   200-310   300-135   300-208   810-403   400-050   640-916   642-997   300-209   400-201   200-355   352-001   642-999   350-080   MB2-712   400-051   C2150-606   1Z0-434   1Z0-146   C2090-919   C9560-655   642-64   100-101   CQE   CSSLP   200-125   210-060   210-065   210-260   220-801   220-802   220-901   220-902   2V0-620   2V0-621   2V0-621D   300-075   300-115   AWS-SYSOPS   640-692   640-911   1Z0-144   1z0-434   1Z0-803   1Z0-804   000-089   000-105   70-246   70-270   70-346   70-347   70-410