Ratgeber

Was ist Siri? So funktioniert die Sprachassistentin wirklich

Siri wartet stets auf genau zwei Worte – doch wie funktioniert das technisch eigentlich?
Siri wartet stets auf genau zwei Worte – doch wie funktioniert das technisch eigentlich? (©YouTube/MacRumors 2017)

Sprachassistentin Siri ist seit langer Zeit fester Bestandteil von iPhone, iPad und Co. – doch was ist Siri eigentlich genau? Wie funktionieren die Prozesse im Hintergrund, damit die KI auch stets auf Zuruf reagiert? Apple hat jüngst verraten, wie genau die künstliche Intelligenz funktioniert.

So reagiert der Sprachassistent auf "Hey Siri"

Siri kann ganz klassisch über den Home-Button aktiviert werden, außer beim iPhone X, oder ganz einfach über den Sprachbefehl "Hey Siri". Damit Siri auf diese beiden Worte reagiert, verrichtet im Hintergrund eine Spracherkennung permanent ihren Dienst, wie Apple in einem Artikel im hauseigenen Machine Learning Journal verriet.

Diese Erkennung funktioniert offline und reagiert nur auf diesen einen Sprachbefehl, sofern dieser in den Einstellungen aktiviert wurde. Erst danach empfängt der Sprachassistent weitere Kommandos, die an Apples Cloud-Server übertragen und von diesen verarbeitet werden. Für die permanente Erkennung kommt ein sogenanntes Deep Neural Network zum Einsatz. Das akustische Muster der Stimme wird mit dessen Hilfe in eine Wahrscheinlichkeitsverteilung umgesetzt.

Wahrscheinlichkeitsrechnung entscheidet über Siri-Aktivierung

Ob Siri jetzt tatsächlich auf das Sprachkommando reagiert, darüber entscheidet ein sogenannter Temporal Integration Process. Dieser berechnet, wie wahrscheinlich "Hey Siri" gesagt wurde. Wird hier ein bestimmter Wert erreicht, der nicht näher definiert wurde, aktiviert das System Siri. Damit die Hürden aber nicht zu hoch liegen, gibt es einen Bereich, in dem das System unsicher ist. In diesem Fall lauscht die Spracherkennung für wenige Augenblicke genauer. Wird "Hey Siri" dann wiederholt, ist die Chance für eine erfolgreiche Aktivierung deutlich höher.

iPhone-Mikrofon erzeugt Stream mit Frequenz von 16.000 pro Sekunde

Das iPhone-Mikrofon wandelt die Stimme in einen Stream von Wellenformen bei einer Frequenz von 16.000 pro Sekunde um. In einem weiteren Durchgang konvertiert die Spektrumanalyse die Wellenformsegmente in Bildsequenzen, jede einzelne beschreibt das Soundspektrum von durchschnittlich 0,01 Sekunden. Ungefähr 20 dieser Frames (0,2 Sekunden Audio) werden anschließend dem akustischen Modus zugeführt. Das Deep Neural Network wandelt daraufhin jedes einzelne akustische Muster in eine Wahrscheinlichkeitsrechnung der einzelnen Laute um. Das Set der Sprachklassen besteht aus der "Hey Siri"-Phrase, Stille und anderen Tönen – insgesamt 20 an der Zahl.

Darum belastet "Hey Siri" den iPhone-Akku kaum

 Für die Erkennung von "Hey Siri" vertraut Apple auf das sogenannte Deep Neural Network. fullscreen
Für die Erkennung von "Hey Siri" vertraut Apple auf das sogenannte Deep Neural Network. (©Apple 2017)

Um den Hauptprozessor trotz der permanent aktiven Spracherkennung nicht zu sehr zu belasten, insbesondere vor dem Hintergrund einer energieeffizienten Nutzung, verfügt das iPhone über einen sogenannten Always-On-Processor (AOP). Dabei handelt es sich um einen kleinen Hilfsprozessor, der ab dem iPhone 6s auf das Mikrofon-Signal des Smartphones zugreifen kann. Damit eine abgespeckte Version des akustischen Modells (DNN) für die Spracherkennung betrieben werden kann, wird nur ein kleiner Teil der ohnehin begrenzten Power des Hilfsprozessors genutzt.

Wird ein bestimmter Schwellenwert überschritten, weckt der Motion-Coprozessor den Hauptprozessor auf, damit dieser das Signal mithilfe eines größeren DNN analysieren kann. In der ersten Fassung mit AOP-Unterstützung nutzte die erste Erkennung ein DNN mit fünf Ebenen von 32 versteckten Einheiten, bei der zweiten waren es ebenfalls fünf Ebenen, aber von 192 versteckten Einheiten.

So errechnet das iPhone die Wahrscheinlichkeit der "Hey Siri"-Phrase

Jede potenziell neue "Hey Siri"-Aussprache wird wie folgt mit den gespeicherten Samples abgeglichen: Der Detektor erzeugt Timing-Informationen, die dazu genutzt werden, das akustische Muster in einen Vektor mit festgelegter Länge umzuwandeln. Das geschieht durch die Mittelwerterrechnung der Frames, die jedem einzelnen Zustand zugeordnet sind. Eine eigene, speziell trainierte DNN wandelt den Vektor in einen Sprecherplatz um. Dieser umfasst Muster vom gleichen Sprecher, während Muster von unterschiedlichen Stimmen weiter auseinander liegend abgelegt werden.

Jetzt werden die Abstände der Referenzmuster des Sprechers, die dieser während der Einrichtung eingesprochen hat, mit einem Schwellenwert abgeglichen. Dadurch misst das System, wie hoch die Wahrscheinlichkeit ist, dass die "Hey Siri"-Phrase vom registrierten Nutzer gesprochen wurde – und aktiviert somit den Sprachassistenten.

Zusammenfassung

  1. Ist "Hey Siri" aktiviert, wartet Siri im Hintergrund permanent auf die Aktivierungsphrase
  2. Wahrscheinlichkeitsrechnung entscheidet darüber, ob Siri reagiert oder nicht
  3. Erst nach erfolgreicher Erkennung wird Siri vollständig aktiviert und empfängt Sprachkommandos
  4. iPhone-Mikrofon wandelt die Stimme in einen Wellenformen-Stream um
  5. Damit "Hey Siri" die Akkuleistung nicht negativ beeinträchtigt, verfügen iPhones über einen Always-On-Processor (AOP)
  6. Dieser Hilfsprozessor arbeitet energieeffizient und weckt bei Bedarf den Hauptprozessor auf
  7. Neue "Hey Siri"-Aussprachen werden mit gespeicherten Samples abgeglichen
  8. Referenzmuster des Sprechers werden mit einem Schwellenwert abgeglichen

Neueste Artikel zum Thema 'Apple iPhone X'

close
Bitte Suchbegriff eingeben