Voice Controlled Interfaces: Vorstellung eines Frameworks zur Kategorisierung aktueller und zukünftiger Systeme

Mit Hilfe von Voice Controlled Interfaces oder kurz “VCIs” beginnt eine neue Ära der Mensch-Maschine-Interaktion [1]. Das besondere an diesen Systemen ist, dass sie auf Sprache als ihre primäre Eingabemethode setzen, und nicht auf Eingaben via Tastatur und Touchscreen basieren. Im Laufe der letzten Jahre wurden diverse solcher VCIs auf den Markt gebracht, darunter Siri von Apple [2] oder Alexa von Amazon [3]. Auch in Zukunft werden weitere Systeme auf dem Markt erscheinen, wie zum Beispiel Google Duplex [4] oder Bosch Casey [5].

Jedes Produkt hat dabei andere Eigenschaften und so fällt häufig der Vergleich von VCIs in ähnlichen Lebensbereichen in Bezug auf verschiedene Bedürfnisse schwer. Um den Überblick und Vergleich zu ermöglichen, soll das folgende Framework eine zentrale Übersicht wichtiger Unterscheidungskriterien bieten, anhand dessen sich VCIs vergleichen lassen.

Vorstellung der Kriterien des Frameworks

 

Abbildung 1: Eigene Darstellung
Abbildung 1: Eigene Darstellung

 

Art der Markteignung

Verschiedene Voice Controlled Interfaces sind für unterschiedliche Märkte ausgelegt. Wir unterscheiden hierbei zwischen der Eignung eines VCIs für den B2B- und den B2C-Markt.

B2B: Das VCI wird gezielt an Geschäftskunden vertrieben, wie z.B. Amazon Alexa [6].

B2C: Das VCI wird gezielt an Privatkunden vertrieben, wie z.B. Apple Siri [2].

 

Ort der Eingabeverarbeitung

Hierbei geht es um die Frage, ob die Spracheingabe lokal auf dem Gerät oder in der Cloud verarbeitet wird. Dieses Unterscheidungskriterium ist daher sehr wichtig, da es einen großen Einfluss darauf hat,  unter welchen Umständen ein System verwendet werden kann. VCIs die Spracheingaben lokal auf dem Gerät, also offline verarbeiten, können auch ohne Internetverbindung verwendet werden. VCIs die Spracheingaben lediglich aufnehmen und zur Verarbeitung an einen Server senden, lassen sich nicht ohne bestehende Internetverbindung verwenden.

Offline: Das VCI führt die Verarbeitung der Spracheingabe lokal und offline auf dem Gerät durch. Dadurch lässt sich das System auch ohne Internetverbindung verwenden.

Online: Das VCI sendet die Spracheingaben an einen Server, der die Verarbeitung in der Cloud durchgeführt und das Ergebnis an das Device zurücksendet. Durch dieses Verfahren ist das System abhängig von einer bestehenden Internetverbindung und lässt sich somit nicht offline verwenden.

 

Grad an künstlicher Intelligenz

Hierbei geht es darum, wie flexibel und umfangreich ein Voice Controlled Interface ist. Bei einfachen Systemen muss der Nutzer auf vordefinierte Sprachkommandos zurückgreifen, um Aktionen durchführen zu können. Je natürlicher der Nutzer hingegen mit einem VCI interagieren kann und je mehr Parameter mit in die Berechnung der Ausgaben einbezogen werden, desto höher ist der grad an künstlicher Intelligenz.

: Der Nutzer muss vordefinierte Sprachkommandos auswendig lernen. Das System ist nicht in der Lage natürliche Sprache zu verstehen. Es werden kaum oder keine weiteren Parameter mit in die Verarbeitung des Befehls einbezogen.

0 : Das System versteht vordefinierte Sprachkommandos und auch Abweichungen davon. Eine natürliche Kommunikation ist somit nur in Ansätzen möglich. Das System bezieht verschiedene Parameter mit in die Berechnung der Ausgabe ein und berücksichtigt dabei zum Beispiel Ort und Zeit der Eingabe.

+ : Der Nutzer kann mit nahezu natürlicher Sprache, also beinahe so, wie er auch mit einem anderen Menschen spricht, mit dem VCI interagieren. Das System ist dabei in der Lage auch komplexe mehrstufige Dialoge mit dem Nutzer zu führen. Dabei bezieht es diverse Parameter mit in die Berechnung ein, wie zum Beispiel Ort, Zeit und Gewohnheiten des Nutzers.

 

Kompatibilität mit anderen Diensten

Im Rahmen der digitalen Transformation ist die Technologie in einem stetigen Wandel. Infolgedessen können sich Technologien länger am Markt halten, die flexibel sind im Bezug auf Kompatibilität mit anderen Systemen. Aspekte, wie Verknüpfbarkeit mit anderen Diensten und Geräten und deren Steuerbarkeit, spielen hier eine große Rolle.

: Das VCI ist nur mit Hersteller-internen Diensten kompatibel. Das System lässt sich nicht mit externen Diensten verbinden.

0 : Das VCI ist mit einer begrenzten Anzahl an externen Diensten kompatibel. Softwarehersteller haben zum Teil die Möglichkeit ihre Applikationen für das VCI zugänglich zu machen. Der Nutzer kann jedoch nicht selbst externe Dienste mit dem System verknüpfen.

+ : Das VCI ist weitreichend mit externen Diensten kompatibel. Diese lassen sich zum Beispiel durch Erweiterungen und Skills mit dem System verknüpfen. Nutzer und Unternehmen haben die Möglichkeit selbst Erweiterungen zu entwickeln und können diese problemlos auf ihrem VCI installieren oder sie auch anderen Nutzern zur Verfügung stellen [7].

 

Implementierbarkeit auf anderer Hardware

Bei diesem Kriterium geht es zentral um die Frage der Multi-Device Fähigkeit eines VCIs. Dabei unterscheiden wir zwischen Systemen, die nur auf einer Hardware Lösung vertreten sind und Systemen, die auf verschiedenster Hardware zum Einsatz kommen.

: Das VCI lässt sich nicht auf anderer Hardware installieren. Die Software ist also an ein bestimmtes Gerät, oder an eine bestimmte Geräteserie des Herstellers gebunden.

0 : Das VCI lässt sich begrenzt auf anderer Hardware installieren. Dies kann zum Beispiel der Fall sein, wenn die Software auch als App in einem App Store verfügbar ist. [8]

+ : Das VCI lässt sich weitreichend auf anderer Hardware installieren. Ein Beispiel dafür kann eine Software sein, die als App und Desktop Version verfügbar ist. Auch Systeme die speziell von ihren Entwicklern darauf ausgelegt wurden, dass externe Hardwarehersteller die Software in ihre Produkte einbinden können, zählen hierzu. [9]

 

Individualisierbarkeit der Software

Damit ein VCI für den Nutzer einen hohen Mehrwert bietet und auch langfristig genutzt wird, ist es von Vorteil, wenn der Nutzer die Software auf seine eigenen Bedürfnisse anpassen kann. Individualisierbarkeit beinhaltet hier zudem auch die Fähigkeit der Software, sich an den Nutzer und dessen Verhalten von selbst anzupassen.

Nein: Das VCI lässt sich nicht durch den Nutzer personalisieren und passt sich auch nicht von selbst an das Nutzerverhalten an.

Ja: Der Nutzer kann zum Beispiel den Rufnamen oder auch die Stimme des Systems verändern. Es besteht die Möglichkeit eigene Sprachkommandos zu erstellen oder das VCI zu konfigurieren. Das System verfügt zusätzlich über die Fähigkeit, sich von selbst auf Grundlage des Nutzerverhaltens anzupassen.

 

Art der Marktveränderung

Voice Controlled Interfaces werden entwickelt, um dem Nutzer den Alltag zu erleichtern und zu bereichern. Verschiedene Services werden gezielt dazu konzipiert, bisherige Eingabemethoden zu ersetzen oder zusammen zu fassen. Innovative Ideen können aber auch ganz neue Bedarfsfelder decken, die in dieser Form noch gar nicht erschlossen wurden. Oft sind Produkte eine Mischung aus beiden Bereichen, da diese so umfangreich sind, dass der Nutzer einzelne Gebiete, die im Prinzip einfach nur abgelöst werden, gar nicht bemerkt.

Ersatz: Das VCI ist in der Lage bestehende Eingabemethoden wie Tastatur und Touchscreen zu ersetzen oder zusammen zu fassen.

Neu: Das VCI stellt eine neue Form der Leistung dar, die es so vorher noch nicht gegeben hat.

 

Sicherung der persönlichen Daten

Der Ort der Sicherung der persönlichen Daten von Nutzern verschiedener Voice Controlled Interfaces ist nicht immer einheitlich gegeben und birgt jeweils verschiedene Vorteile und Risiken. Durch eine lokale Sicherung kann der Nutzer weltweit offline auf seine Daten zugreifen und das VCI immer personalisiert mit dem Nutzer interagieren. Die Sicherung der Daten in einer Cloud ist gerade dann sinnvoll, wenn das VCI nur mit aktiver Internetverbindung funktioniert.

Lokal: Die Nutzerdaten werden lokal auf dem Device gespeichert.

Cloud: Die Nutzerdaten werden in der Cloud gespeichert, wie z.B. bei Amazon Alexa [10].

 

Rechtliche Umsetzbarkeit im Alltag

Künftige VCIs können dem Nutzer vieles im Alltag erleichtern. Doch viele Technologien und Ideen schaffen es nicht einmal in die Entwicklung, da die Grundidee bereits im Konflikt mit dem Gesetz steht. Der humanoide Roboter Pepper zum Beispiel arbeitet in der Uniklinik in Halle und ist darauf ausgelegt, Erstgespräche mit Patienten zu führen. Theoretisch kann der Roboter auch eine Erinnerungsstütze im Alltag von dementen Patienten sein. Umsetzbar ist diese Idee jedoch derzeit nicht, da zu viele sensible Informationen frei durch einfache Abfragen abrufbar wären.

: Das System wird aktuell kritisch diskutiert und ist noch nicht im Alltag einsetzbar. Meistens befinden sich diese Systeme auch noch in der Testphase.

+ : Das System befindet sich entweder schon im Einsatz oder einem zukünftigen Einsatz steht mit sehr hoher wahrscheinlichkeit nichts im Wege.

 

Kategorisierung ausgewählter aktueller und zukünftiger VCIs auf Grundlage des Frameworks

 

Abbildung 2: Eigene Darstellung von Analyseergebnissen auf Grundlage des Frameworks
Abbildung 2: Eigene Darstellung von Analyseergebnissen auf Grundlage des Frameworks

 

Als Quellen dienten bei der Analyse eigene Tests, Tests anderer Nutzer und Herstellerinformationen. Bei zukünftigen Systemen lagen zum Teil ausschließlich Herstellerinformationen vor.

Leere Felder: Gerade bei neuen oder zukünftigen Systemen lagen oft noch zu wenig Informationen für eine eindeutige Einordnung vor.

 

Fazit

Gerade in der Mobilfunkbranche ist auffällig, dass sich im Laufe der Jahre die Ansprüche an Sprachassistenten stark verändert haben. Als Siri 2011 auf den Markt kam war die innovative Technik der Kommunikation mit einem elektronischen Assistenten, der dazu in der Lage ist verschiedene Informationen auszuspielen, revolutionär. Mit der Markteinführung des Google Assistant 2016 war die größte technologische Weiterentwicklung ein umfangreich entwickeltes Empfehlungssystem, mit Hilfe dessen sich der Assistent immer weiter auf den Nutzer personalisieren kann. Samsung Bixby kommt 2018 mit dem Samsung Galaxy S9 auf den Markt und trägt stark dazu bei, die analoge Steuerung von Smartphones durch Sprachsteuerung zu ersetzen [11].

Im Rahmen der Digitalisierung haben auch Hersteller bzw. Zulieferer der Automobilindustrie wie Mercedes und Bosch unabhängig voneinander Sprachassistenten entwickelt, um diese in zukünftige Autos zu integrieren. Interessant ist, dass beide Hersteller bei der Entwicklung einen Schwerpunkt auf die Unabhängigkeit von einer aktiven Internetverbindung gelegt haben. Trotz des weitflächigen Ausbaus der Mobilfunknetze verlassen sich beide Hersteller nicht auf die durchgängige Erreichbarkeit.

In den kommenden Jahren werden Markteinführungen von VCIs wie Google Duplex und dem humanoiden Roboter “Pepper” die heutige Gesellschaft Thematiken wie Datenschutzgesetze überdenken lassen. Bereits bei der Vorstellung der Systeme wurden beide Hersteller stark kritisiert, und die Konformität ihrer Systeme mit geltenden Datenschutzgesetzen angezweifelt [12] [13]. Ebenfalls führen diese Technologien zu neuem Diskussionsbedarf in Politik und Gesellschaft.

In naher Zukunft werden sich die Menschen mit der Frage beschäftigen müssen, ob sich VCIs wie im Fall von Google Duplex, am Telefon identifizieren müssen, wenn sie einen Anruf für einen Nutzer durchführen. Auch der humanoide Roboter “Pepper”, der in der Altenpflege eingesetzt werden soll, wirft die Frage auf, wie ein Roboter unterscheiden soll, welcher Pflegekraft er welche Informationen übermitteln darf.

All diese Fragen werden sich in naher Zukunft stellen und verlangen nach einer Antwort, da sonst die technologische Weiterentwicklung stagnieren könnte. Auch die heutige Rechtsprechung muss angepasst werden, da sie sonst die neuen, durch VCIs möglich gemachten Betätigungsfelder und Geschäftsmodelle, nicht berücksichtigt.

Literaturverzeichnis

[1] Vgl. Zukunftsinstitut. Abgerufen am 11.11.2018 von https://www.zukunftsinstitut.de/artikel/voice-interfaces-sprechen-statt-tippen/

[2] Apple Siri. Abgerufen am 11.11.2018 von https://www.apple.com/de/siri/

[3] Amazon Alexa. Abgerufen am 11.11.2018 von https://developer.amazon.com/de/alexa

[4] Vgl. The Star. (12.10.2018). Abgerufen am 11.11.2018 von https://www.thestar.com.my/tech/tech-news/2018/10/12/googles-duplex-arrives-next-month/

[5] Vgl. Computer Bild. (08.01.2018). Abgerufen am 11.11.2018 von https://www.computerbild.de/artikel/cb-News-Connected-Car-Bosch-Casey-Sprachassistent-Kuenstliche-Intelligenz-Auto-19582385.html

[6] Alexa for Business. Abgerufen am 11.11.2018 von https://aws.amazon.com/de/alexaforbusiness/

[7] Amazon Alexa Skills Kit. Abgerufen am 11.11.2018 von https://developer.amazon.com/de/alexa-skills-kit

[8] Giga. (08.11.2018). Abgerufen am 11.11.2018 von https://www.giga.de/apps/android/tipps/google-assistant-installieren-android-6.0-7.0-so-gehts/

[9] Heise Online (10.01.2018). Abgerufen am 11.11.2018 von https://www.heise.de/developer/meldung/Sprachassistent-Microsoft-will-Cortana-auf-mehr-Geraeten-verfuegbar-machen-3938191.html

[10] Golem (02.11.2016). Abgerufen am 11.11.2018 von https://www.golem.de/news/amazons-echo-im-test-beim-dankesagen-ertappt-1611-124174-6.html

[11] Samsung Boxby. Abgerufen am 11.11.2018 von https://www.samsung.com/us/explore/bixby/talks/

[12] Gründerszene (11.05.2018). Abgerufen am 11.11.2018 von https://www.gruenderszene.de/business/google-assistent-duplex-telefonate

[13] Heise (30.05.2019). Abgerufen am 14.11.2018 von https://www.heise.de/security/meldung/Roboter-Pepper-kaempft-mit-massiven-Sicherheitsproblemen-4060743.html

 

One Reply to “Voice Controlled Interfaces: Vorstellung eines Frameworks zur Kategorisierung aktueller und zukünftiger Systeme”

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert