menu

Wie funktioniert Alexa? So arbeitet die künstliche Intelligenz

Wir erklären, wie Alexa funktioniert.
Wir erklären, wie Alexa funktioniert.

Sprachassistenten wie Alexa landen in immer mehr Haushalten und begleiten uns unterwegs auf Smartphones oder Laptops. Doch wie funktionieren diese eigentlich und was passiert im Hintergrund, wenn wir eine Spracheingabe machen?

Es gibt auf der Welt wohl kein effizienteres Kommunikationsmittel als die menschliche Sprache – und auch kein komplexeres. Denn auch wenn Millionen Menschen oberflächlich betrachtet ein und dieselbe Sprache sprechen, so hat doch jeder seine eigene Aussprache und seine eigene Interpretation des Gesprochenen. Umso beeindruckender ist es, dass Computer, die das gesprochene Wort verstehen, mittlerweile feste Begleiter unseres Alltags sind. Zu den bekanntesten zählt wohl der Amazon Echo mit seiner Sprachsoftware Alexa.

Dabei ist ein Echo-Lautsprecher unter der Haube tatsächlich kaum mehr als ein einfacher Lautsprecher mit eingebauten Mikrofonen. Was ihn von einem herkömmlichen Speaker unterscheidet, sind vor allem ein kleiner und recht leistungsschwacher Computerchip und ein WLAN-Modem. Diese beiden Komponenten sind aber entscheidend dafür, dass Alexa in der Lage ist, uns zu verstehen, und uns sogar sinnvoll antworten kann. Das eigentliche Gehirn der digitalen Assistentin befindet sich nämlich nicht im Echo selbst, sondern auf den gigantischen Cloud-Rechnern von Amazon.

Was passiert, wenn Du Alexa etwas fragst?

Wenn Du Alexa also fragst: "Alexa, wie wird das Wetter morgen?", dann nimmt der Echo Deine Stimme zunächst einmal auf. Dazu stehen im Standard-Echo-Lautsprecher sieben Mikrofone und ein Computerchip zur Verfügung, die dafür da sind, eine möglichst saubere Audio-Aufnahme hinzubekommen.

Amazon Echo fullscreen
In einem Amazon Echo sitzen sieben Mikrofone.

Mithilfe von Hard- und Software im Gerät selbst ist der Smart-Speaker in der Lage, Hintergrund- und Umgebungsgeräusche sehr gut auszublenden und die eigentliche Sprachaufnahme deutlich und klar aufzuzeichnen. Mithilfe der sieben verbauten Mikrofone kann die Software dabei erfassen, aus welcher Richtung ein Sprachbefehl kommt, und gezielt das darauf ausgerichtete Mikrofon nutzen, um genau diese Spracheingabe zu erfassen. Eine möglichst unverfälschte und saubere Audio-Aufnahme ist wichtig, damit Alexa alle weiteren Schritte einleiten kann.

Die Hauptarbeit findet in der Cloud statt

Die Sprachaufnahme überträgt Alexa dann in Windeseile zu einem Cloud-Server. Dort kümmert sich eine Software-Routine namens Alexa Voice Services um Deinen Sprachbefehl. Diese selbstlernende Software ist eine Art Übersetzer. Sie hat die Aufgabe, Deine Spracheingabe zu analysieren und sie in Eingabebefehle zu übersetzen, die ein Computer versteht. Dabei achtet die Software zunächst auf bestimmte Schlüsselwörter. In unserem Beispiel "Alexa, wie wird das Wetter morgen?" wären das "Wetter" und "morgen".

Die übersetzten Eingabebefehle werden dann an relevante Apps oder Dienste weitergeleitet, die zur Umsetzung des Sprachbefehls nötig sind. Im genannten Beispiel wäre das zum Beispiel eine Wetter-App, welche die nötigen Daten abruft. Diese werden dann wiederum in menschliche Sprache zurückübersetzt und zurück an das Echo-Gerät gesendet, wo Du dann Deine Antwort von Alexa erhältst. Das Ganze passiert normalerweise innerhalb von ein bis zwei Sekunden.

Dies ist nur ein Beispiel für einen recht simplen Sprachbefehl. Die Spracheingaben, die Alexa erhält, können jedoch auch weitaus komplexer sein und teilweise mehrstufige Prozesse auslösen, die völlig unbemerkt vom Nutzer im Hintergrund ablaufen. Diese Komplexität der ganzen Technik sorgt auch dafür, dass Alexa nur bei einer bestehenden Internetverbindung funktioniert.

Alexa lernt aus Fehlern

Ein zentraler Baustein von Alexa wie auch von anderen Sprach-Interfaces ist maschinelles Lernen. Denn: Jede Spracheingabe, ganz gleich ob Alexa sie richtig oder falsch versteht, nutzt die Software automatisch, um sich selbstständig zu verbessern. So soll die Fehlerquote von ganz allein mit zunehmender Nutzung sinken.

Amazon Echo Show fullscreen
Mittlerweile sitzt Alexa in einer Vielzahl von Geräten.

Und das ist auch logisch: Je mehr Varianten, ein bestimmtes Wort auszusprechen, Alexa bereits gehört hat, umso besser kann sie dieses Wort verstehen und von anderen Wörtern unterscheiden. Auch Menschen mit Akzent wird eine selbstlernende Software ganz automatisch immer besser verstehen, wenn sie erst einmal entschlüsselt hat, dass sie diesen Akzent haben und dadurch bestimmte Begriffe anders aussprechen als die Mehrheit.

Google, Siri und Co. arbeiten nach dem gleichen Prinzip

Die Arbeitsweise von Alexa ist lediglich eines von vielen Beispielen. Nach einem ähnlichen Prinzip funktionieren auch andere Sprachassistenten wie der Google Assistant, Siri oder Cortana, die teilweise in ganz anderen Geräten ihren Dienst verrichten.

Zusammenfassung: Wie funktioniert Alexa?

  1. Wenn Du eine Spracheingabe machst, nimmt der Amazon Echo mithilfe von sieben Mikrofonen zunächst den Befehl auf. Ein Chip im Gerät sorgt dabei dafür, dass die Aufnahme möglichst sauber und störungsfrei aufgezeichnet wird.
  2. Anschließend wandert die Audio-Aufnahme zu den Cloud-Servern von Amazon, wo sich eine Software namens Alexa Voice Services daran macht, diese zu analysieren und die gesprochenen Wörter in Computerbefehle zu übersetzen.
  3. Auf Basis der Ergebnisse, die durch das Ausführen der Computerbefehle zustande kommen, bastelt Alexa dann die Antwort für Dich. Dabei werden Computerdaten wieder in menschliche Sprache zurückübersetzt und aus der Cloud zurück an das Echo-Gerät geschickt. Dort antwortet Alexa dann ganz natürlich auf die zuvor gestellte Frage.
  4. Da es sich bei den Alexa Voice Services um ein selbstlernendes System handelt, verbessert sich die Software ständig und lernt auch aus falsch verstandenen Sprachbefehlen. Das Ziel ist, immer mehr Nutzer immer besser zu verstehen.
Kommentar schreiben
Relevante Themen:

Neueste Artikel bei Tech

close
Bitte Suchbegriff eingeben