AI-United » Allgemein » Wie funktioniert Alexa?

Wie funktioniert Alexa?

Wir können viel über Smart Home-Geräte sprechen, aber wie funktionieren sie wirklich? Alexa ist auf Natural Language Processing (NLP) basiert, einem Verfahren zur Umwandlung von Sprache in Wörter, Töne und Ideen. Amazon zeichnet Ihre Wörter auf. Die Interpretation von Sounds erfordert viel Rechenleistung. Die Aufzeichnung Ihrer Sprache wird an die Server von Amazon gesendet, damit Sie effizienter analysieren können. Die Rechenleistung bezieht sich auf die Geschwindigkeit, die mit den Anweisungen ausgeführt wird.

Amazon Echo

Amazon zerlegt Ihre “Befehle” in einzelne Sounds. Anschließend konsultiert es eine Datenbank mit verschiedenen Aussprachen der Wörter, um herauszufinden, welche Wörter der Kombination der einzelnen Töne am besten entsprechen.

Amazon Echo Logo

Die Server von Amazon senden die Informationen an Ihr Gerät zurück. Wenn Alexa etwas zurücksenden muss, wird derselbe Vorgang wie oben beschrieben durchgeführt, jedoch in umgekehrter Reihenfolge.

Ausführliche Erklärung

Das fängt bei der Signalverarbeitung an, um das Audio durch Reinigung des Signals zu verstehen. Die Signalverarbeitung ist eine der wichtigsten Herausforderungen bei der Audioübertragung.

Die Idee ist, das Zielsignal zu verbessern. Um diese Probleme zu lösen, werden sieben Mikrofone verwendet, um ungefähr festzustellen, woher das Signal kommt, damit sich das Gerät darauf konzentrieren kann. Die Unterdrückung des akustischen Echos kann dieses Signal subtrahieren, so dass nur das wichtige Signal bleibt.

Amazon Alexa Service

Die nächste Aufgabe ist “Wake Word Detection”. Sie bestimmt, ob der Benutzer eines der Wörter sagt, die das Gerät einschalten muss, z. B. “Alexa“. Dies ist erforderlich, um falsche und negative Ergebnisse zu minimieren, die zu zufälligen Käufen und verärgerten Kunden führen können. Dies ist erforderlich, um falsche und negative Ergebnisse zu minimieren, die zu zufälligen Käufen und verärgerten Kunden führen können. Ein Decoder bestimmt die wahrscheinlichste Folge von Wörtern, wenn die Eingabemerkmale und das Modell in zwei Teile aufgeteilt werden. Das erste Teil bietet eine wahrscheinlichste Sequenz, die auf einer großen Menge vorhandenen Textes basiert, ohne auf die Merkmale zu schauen. Das andere ist das akustische Modell, das mit tiefem Lernen trainiert wird, indem es die Audiopaare und Transkripte betrachtet werden. Diese werden kombiniert und es wird eine dynamische Codierung angewendet, die in Echtzeit erfolgen muss.

Amazon Alexa Bearbeitung der Sprache
Analyse der Bestellung

Der obige Befehl besteht aus 3 Hauptteilen: Weckwort, Aufrufname, Äußerung.

Weckwort

Das Weckwort versetzt Alexa in den Hör-Modus und ist bereit, Anweisungen von Benutzern zu erhalten.

Aufrufname

Der Aufrufname ist das Schlüsselwort, mit dem eine bestimmte “Fähigkeit” ausgelöst wird. Benutzer können den Aufrufnamen mit einer Aktion, einem Befehl oder einer Frage kombinieren. Alle benutzerdefinierten Aufgaben müssen einen Aufrufnamen haben, um sie zu starten.

Äußerung

“Stier” ist eine Äußerung. Äußerungen sind Ausdrücke, die die Benutzer verwenden, wenn sie eine Anfrage an Alexa stellen. Alexa identifiziert die Absicht des Benutzers anhand der gegebenen Äußerung und reagiert entsprechend. Im Grunde entscheiden die Äußerungen, welche Aktionen Alexa vorführen soll.

Die Erkennung der Wörter bei Alexa lernt ständig dazu durch Userinteraktion und erkennt somit die Stimme step-by-step immer genauer. Bald soll Alexa selbst über mehr Personalisierung verfügen und sogar mögliche Folgefragen vorab zu beantworten.

Was ist NLP?

Es ist eine Konvergenz von künstlicher Intelligenz und Computerlinguistik, die Interaktionen zwischen Maschinen und natürlichen Sprachen des Menschen handhabt, in denen Computer natürliche Sprache analysieren, verstehen, verändern oder erzeugen.

Das Verständnis der menschlichen Sprache wird aufgrund ihrer Komplexität als schwierige Aufgabe angesehen. Es gibt zum Beispiel unendlich viele verschiedene Möglichkeiten, die Wörter in einem Satz anzuordnen. Die Wörter können auch mehrere Bedeutungen haben und Kontextinformationen sind erforderlich, um Sätze richtig zu interpretieren.

Natürliche Sprache ist eine Sprache, die sich beim Menschen durch Gebrauch und Wiederholung ohne bewusste Planung oder Vorsatz auf natürliche Weise entwickelt hat. Natürliche Sprachen können verschiedene Formen annehmen, beispielsweise Sprache oder Signierung.

Eine gute Regel ist die Verwendung des Begriffs NLU, wenn man über die Fähigkeit einer Maschine spricht. NLU ist eigentlich eine Teilmenge der gesamten Welt von NLP.

Hidden Markov Models können immer dann ein guter Ansatz zur Modellierung eines Systems sein, wenn man das zu Grunde liegende System nicht direkt beobachten kann. Ihre Vorteile sind insbesondere: relativ einfach zu handhabende Mathematische Grundlagen und geringe Fehlerraten. Aber Hidden Markov Models haben auch viele Einschränkungen. Die Wahl des richtigen Modells ist oft schwierig, man braucht ausreichend Trainingsdaten für gute Parameterabschätzungen und auch die Markovannahme, dass jeder Zustand nur von seinem Vorgängerzustand abhängt ist nicht für alle Probleme zutreffend. Insbesondere bei Spracherkennung sind sie aber ein möglicher Ansatz und führen dort auch zu einer ausreichenden Erkennungsleistung.

Amazon Alexa Hidden Markov Modell – Quelle

NLP-Systeme haben auch ein Lexikon (ein Vokabular) und einen Batch von Grammatikregeln, die in das System kodiert sind. Moderne NLP-Algorithmen wenden statistisches maschinelles Lernen an, um diese Regeln auf die natürliche Sprache anzuwenden und die wahrscheinlichste Bedeutung hinter dem, was Sie gesagt haben, zu bestimmen.

Um Maschinen zu entwickeln, die die natürliche Sprache verstehen, ist es notwendig, die Sprache unter Verwendung einer Kombination von Regeln und statistischer Modellierung zu destillieren. Die Entitäten müssen extrahiert, identifiziert und aufgelöst werden. Die semantische Bedeutung muss im Kontext abgeleitet und zur Identifizierung von Absichten verwendet werden. Zum Beispiel muss ein einfacher Satz wie “Ich brauche einen Flug und ein Hotel in Paris vom 5. bis zum 10. Dezember” eine Struktur ergeben:

need:flight {intent} / need:hotel {intent} / Paris {city} / DEC 5 {date} / DEC 10 {date} / sentiment: 0.5723 (neutral)

Wenn Alexa bei der Interpretation Ihrer Anfrage einen Fehler macht, werden diese Daten verwendet, um das System beim nächsten Mal zu verbessern. Maschinelles Lernen ist der Grund für die rasche Verbesserung der Fähigkeiten einer sprachaktivierten Benutzeroberfläche.

Mit dem Verständnis natürlicher Sprache (NLU) können Computer ableiten, was ein Sprecher meint, und nicht nur die Wörter, die er sagt.

Die heutigen Voice-First-Technologien basieren auf NLU, einer künstlichen Intelligenz, bei der Muster und Bedeutung in der menschlichen Sprache erkannt werden. Natural Language Processing mit Voice Assistants als Proxy hat bereits neu definiert, wie wir mit Technologie, zu Hause auf andere Weise interagieren.

Sie können hier den Code hinter einem Alexa-Gerät einsehen:

https://github.com/alexa/avs-device-sdk/wiki
  • Wie können Sie KI und Sprach Assistenten in Ihrem Umfeld einsetzen?
  • Welche Aufgaben können von der Tastatur und Maus auf die Sprach-Steuerung umgelagert werden?

Diese und weitere Fragen beantwortet gerne das AI United Team per Email oder in dem Q&A Bereich.

AI-United

Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.