Wer sich für technisch-wissenschaftliche Hintergründe zu Apples Forschung und Arbeit in Richtung künstlicher Intelligenz und Maschinenlernen interessiert, sollte hin und wieder mal einen Abstecher in das öffentliuche Machine Learning Journal des Unternehmens werfen. Ein aktuell dort veröffentlichtes Paper setzt sich dort nun mit dem Personalisierungsprozess von "Hey Siri" auseinander, also dem Training des Geräts, dass es nur auf die Stimme des Besitzers reagiert.
In dem neuen Artikel im Machine Learning Journal, erklärt das Siri-Team den technischen Ansatz hinter der Funktion. Unter anderem kommen dabei sogenannte Deep Neural Networks zum Einsatz, um eine Personalisierung und einen kontinuierlichen Lerneffekt zu erzielen. Durch die Verwendung des Schlüsselsatzes "Hey Siri" wollte man zudem eine persönliche Athmosphäre erzeugen, da es sich um einen auch in der realen Welt üblichen Anfang einer Anrede handelt. Selbstverständlich soll dabei allerdings vermieden werden, dass der Sprachassistent auch dann anspringt, wenn ein ähnlicher Satz gesprochen wird oder jemand anders die magischen Worte spricht.
Um dies zu verhindern, kommt eine Erkennung, bei der man sich vielmehr darauf konzentriert, wer spricht und weniger darauf, was gesprochen wird. Man fokussiert sich also eher auf eine Sprechererkennung, als auf eine Spracherkennung. Der Artikel geht darüber hinaus noch auf jede Menge weitere Details ein. Bei Interesse ist ein Abstecher ins Journal absolut empfohlen.